我正在尝试在R中为联合分析实验(如SPSS orthoplan)创建一个因子设计.
在过去的Stackoverflow问题中搜索,我找到了之前的答案:
这确实是一个有用的答案,但只有在你有数字水平的因素的情况下.
不幸的是,这不是我的情况,因为我想要使用的因素是名义变量,即它们的水平不是数字类型而是因子类型:例如我必须处理指示产品颜色的因素,可以是绿色,黄色或红色.
我已经尝试修改建议的代码作为如何在R中创建分数阶乘设计的问题的答案? 以这样的方式:
f.design <- gen.factorial(levels.design,factors="all")
Run Code Online (Sandbox Code Playgroud)
但结果既不平衡,也不正交.此外,您必须在optFederov函数中定义确切的试验次数.在该答案中,建议的试验次数为:
nTrials=sum(levels.design)
Run Code Online (Sandbox Code Playgroud)
但为了在具有名义因素的设计中获得平衡的解决方案,我预计它至少应该是:
nTrials=prod(unique(levels.design))
Run Code Online (Sandbox Code Playgroud)
无论如何都有一个可以解决这个问题的软件包,它是FrF2由Ulrike Groemping教授提供的软件包,但它只处理二元变量,我无法弄清楚如何使用它来解决我的问题.
我在Python工作,我有一个存储在文本文件中的矩阵.文本文件以这样的格式排列:
row_id,col_id
row_id,col_id
...
row_id,col_id
row_id和col_id是整数,它们取值从0到n(为了知道n为row_id和col_id,我必须先扫描整个文件).
没有标题,row_ids和col_ids在文件中多次出现,但每个组合row_id,col_id出现一次.每个组合row_id,col_id没有明确的值,实际上每个单元格值为1.文件的大小几乎是1千兆字节.
不幸的是,文件很难在内存中处理,事实上,它是2257205 row_ids和122905 col_ids用于26622704元素.所以我一直在寻找更好的方法来处理它.矩阵市场格式可能是一种处理它的方式.
有没有一种快速且内存有效的方法使用Python 将此文件转换为市场矩阵格式(http://math.nist.gov/MatrixMarket/formats.html#mtx)的文件?
我正在处理一个大约12*10 ^ 6行的文本文件,它存储在我的硬盘上.该文件的结构是:
data|data|data|...|data\n
data|data|data|...|data\n
data|data|data|...|data\n
...
data|data|data|...|data\n
Run Code Online (Sandbox Code Playgroud)
没有标题,并且没有唯一标识行的ID.
由于我想将它用于机器学习目的,我需要确保文本文件中没有可能影响随机学习的顺序.
通常我会将这种类型的文件上传到内存中,然后在将它们重写到磁盘之前对其进行随机播放.不幸的是,由于文件的大小,这次不可能,所以我必须直接在磁盘上管理洗牌(假设我没有磁盘空间的问题).关于如何有效地(尽可能低的复杂性,即写入磁盘)使用Python管理这样的任务的任何想法?
我想在Colab上使用GPU支持测试新的TensorFlow 2.0预览,但是!pip install tf-nightly-gpu-2.0-preview在单元格上安装TensorFlow之后,当我导入包时,我得到错误:ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory这表示与平台上预安装的CUDA版本有些不一致.