小编Win*_*ton的帖子

ValueError:加载GoogleNews-vectors-negative时数组太大

我正在尝试使用以下代码从Google加载预训练的单词向量:

from gensim import models
w = models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)
Run Code Online (Sandbox Code Playgroud)

但是我收到的错误告诉了我

文件"C:\ ProgramData\Anaconda3\lib\site-packages\gensim\models\keyedvectors.py",第197行,in load_word2vec_format result.syn0 = zeros((vocab_size,vector_size),dtype = datatype)

ValueError:数组太大; arr.size * arr.dtype.itemsize大于最大可能的大小.

有谁能建议一个可能的解决方案 提前致谢.

python gensim

4
推荐指数
1
解决办法
3765
查看次数

使用 Dask 根据列值保存多个 csv 文件

我有一个很大的 csv 文件,假设它看起来像这样

ID,PostCode,Value
H1A0A1-00,H1A0A1,0
H1A0A1-01,H1A0A1,0
H1A0A1-02,H1A0A1,0
H1A0A1-03,H1A0A1,0
H1A0A1-04,H1A0A1,1
H1A0A1-05,H1A0A1,0
H1A1G7-0,H1A1G7,0
H1A1G7-1,H1A1G7,0
H1A1G7-2,H1A1G7,0
H1A1N6-00,H1A1N6,0
H1A1N6-01,H1A1N6,0
H1A1N6-02,H1A1N6,0
H1A1N6-03,H1A1N6,0
H1A1N6-04,H1A1N6,0
H1A1N6-05,H1A1N6,0
...
Run Code Online (Sandbox Code Playgroud)

我想按邮政编码值将其拆分,并将具有相同邮政编码的所有行保存为 CSV。我努力了

postals = data['PostCode'].unique()
for p in postals:
    df = data[data['PostCode'] == p]
    df.to_csv(directory + '/output/demographics/' + p + '.csv', header=False, index=False)
Run Code Online (Sandbox Code Playgroud)

有没有办法使用 Dask 来利用多处理来做到这一点?谢谢

python csv dask

1
推荐指数
1
解决办法
984
查看次数

Pandas 对列进行排序,但将同一类别的元素保留在一起

我有一个包含两列的数据框。一个是数字的,另一个是分类的。例如,

   c1   c2
0  15   A
1  11   A
2  12   B
3  40   C
Run Code Online (Sandbox Code Playgroud)

我想按 c1 排序,但将具有相同 c2 值的行保留在一起(因此所有 A 都保留在一起)。在有多个条目的类别中,我们按该类别中的最大值进行排序。

所以最终结果是

   c1   c2
0  40   C
1  15   A
2  11   A
3  12   B
Run Code Online (Sandbox Code Playgroud)

我该怎么做?谢谢

python pandas

1
推荐指数
1
解决办法
1305
查看次数

标签 统计

python ×3

csv ×1

dask ×1

gensim ×1

pandas ×1