小编Kru*_*mar的帖子

用Python阅读.tar.gz文件

我有一个25GB的文本文件.所以我把它压缩到tar.gz,它变成450 MB.现在我想从python中读取该文件并处理文本数据.对于这个我提到的问题.但在我的情况下代码不起作用.代码如下:

import tarfile
import numpy as np 

tar = tarfile.open("filename.tar.gz", "r:gz")
for member in tar.getmembers():
     f=tar.extractfile(member)
     content = f.read()
     Data = np.loadtxt(content)
Run Code Online (Sandbox Code Playgroud)

错误如下:

Traceback (most recent call last):
  File "dataExtPlot.py", line 21, in <module>
    content = f.read()
AttributeError: 'NoneType' object has no attribute 'read'
Run Code Online (Sandbox Code Playgroud)

还有,还有其他方法可以完成这项任务吗?

python gzip file tar

20
推荐指数
2
解决办法
3万
查看次数

为什么ngrams()函数会给出不同的bigrams?

我正在写一个R脚本并使用库(ngram).

假设我有一个字符串,

"良好的质量狗粮买了重要的可以狗粮产品发现好的质量产品看起来像炖过程肉味更好的拉布拉多finicki欣赏产品更好"

并希望找到双克.

ngram库给我bi-gram如下:

"欣赏产品""加工肉""食品""食品买""qualiti狗""找到的产品""产品外观""看起来像""像炖""好的质量""拉布拉多芬奇""买了切断""qualiti"产品""更好的拉布拉多" "狗食" "气味更好""至关重要""肉味""发现好""切断重要""炖过程""可以狗""finicki appreci""产品更好"

因为这句话包含两次"狗食",我想要两次这个二元组.但我得到它一次!

在thengram库或任何其他库中是否有一个选项可以在R中给出我句子的所有二维词?

nlp r n-gram

5
推荐指数
2
解决办法
381
查看次数

在python 3.5中安装scrapy时出错

我在Python 3.5中安装Scrapy.我在这里指的是安装指南.

我安装了pipconda.我尝试了指南中提到的两种方法,但我收到此错误:

安装scrapy时出错

我已经安装pipminoconda:

conda install -c scrapinghub scrapy
Run Code Online (Sandbox Code Playgroud)

 pip install Scrapy
Run Code Online (Sandbox Code Playgroud)

安装有什么问题?

python scrapy

2
推荐指数
1
解决办法
7642
查看次数

如何绘制事件的到达间隔时间的概率密度函数(PDF)?

我有一个数据值数组如下:

0.000000000000000000e+00
3.617000000000000171e+01
1.426779999999999973e+02
2.526699999999999946e+01
4.483190000000000168e+02
7.413999999999999702e+00
1.132390000000000043e+02
8.797000000000000597e+00
1.362599999999999945e+01
2.080880900000000111e+04
5.580000000000000071e+00
3.947999999999999954e+00
2.615000000000000213e+00
2.458000000000000185e+00
8.204600000000000648e+01
1.641999999999999904e+00
5.108999999999999986e+00
2.388999999999999790e+00
2.105999999999999872e+00
5.783000000000000362e+00
4.309999999999999609e+00
3.685999999999999943e+00
6.339999999999999858e+00
2.198999999999999844e+00
3.568999999999999950e+00
2.883999999999999897e+00
7.307999999999999829e+00
2.515000000000000124e+00
3.810000000000000053e+00
2.829000000000000181e+00
2.593999999999999861e+00
3.963999999999999968e+00
7.258000000000000007e+00
3.543000000000000149e+00
2.874000000000000110e+00
................... and so on. 
Run Code Online (Sandbox Code Playgroud)

我想绘制数据值的概率密度函数.我提到(Wiki)scipy.stats.gaussian_kde.但我没有得到这是正确与否.我正在使用python.简单的数据绘图代码如下:

from matplotlib import pyplot as plt
plt.plot(Data)
Run Code Online (Sandbox Code Playgroud)

但现在我想绘制PDF(概率密度函数).但我没有在python中获得任何库.

python plot numpy

2
推荐指数
2
解决办法
2万
查看次数

根据 2 列值取 numpy 数组的唯一值。

我在 python 中有两列的 Numpy 数组,如下所示:

time,id
1,a
2,b
3,a
1,a
5,c
6,b
3,a
Run Code Online (Sandbox Code Playgroud)

我想占用每个用户的独特时间。对于上述数据,我想要低于输出。

time,id
1,a
2,b
3,a
5,c
6,b
Run Code Online (Sandbox Code Playgroud)

也就是说,我只想取唯一的行。所以, 1,a 和 3,a 不会在结果中重复。我将列作为字符串数据类型并有一个非常大的二维数组。一个解决方案可能是,我可以遍历所有行并制作一组。但这会很慢。请提出一种有效的方法来实现它。

python arrays numpy

2
推荐指数
1
解决办法
3792
查看次数

更快的长度版本(find()),用于从矢量(MATLAB)的某个范围中选择元素

我有1Xn单元格值的数组.我想计算matlab中给定范围内的值.我实现如下:

count1 = length(find(h{1}<ti & h{1}>ti-INT));
Run Code Online (Sandbox Code Playgroud)

h是我的单元格数组,我想要ti和ti-INT之间的值计数.

此实现提供了正确的结果,但速度非常慢.是否有更快的功能可用于指定的操作?

matlab

0
推荐指数
1
解决办法
78
查看次数

标签 统计

python ×4

numpy ×2

arrays ×1

file ×1

gzip ×1

matlab ×1

n-gram ×1

nlp ×1

plot ×1

r ×1

scrapy ×1

tar ×1