我有一个25GB的文本文件.所以我把它压缩到tar.gz,它变成450 MB.现在我想从python中读取该文件并处理文本数据.对于这个我提到的问题.但在我的情况下代码不起作用.代码如下:
import tarfile
import numpy as np
tar = tarfile.open("filename.tar.gz", "r:gz")
for member in tar.getmembers():
f=tar.extractfile(member)
content = f.read()
Data = np.loadtxt(content)
Run Code Online (Sandbox Code Playgroud)
错误如下:
Traceback (most recent call last):
File "dataExtPlot.py", line 21, in <module>
content = f.read()
AttributeError: 'NoneType' object has no attribute 'read'
Run Code Online (Sandbox Code Playgroud)
还有,还有其他方法可以完成这项任务吗?
我正在写一个R脚本并使用库(ngram).
假设我有一个字符串,
"良好的质量狗粮买了重要的可以狗粮产品发现好的质量产品看起来像炖过程肉味更好的拉布拉多finicki欣赏产品更好"
并希望找到双克.
ngram库给我bi-gram如下:
"欣赏产品""加工肉""食品""食品买""qualiti狗""找到的产品""产品外观""看起来像""像炖""好的质量""拉布拉多芬奇""买了切断""qualiti"产品""更好的拉布拉多" "狗食" "气味更好""至关重要""肉味""发现好""切断重要""炖过程""可以狗""finicki appreci""产品更好"
因为这句话包含两次"狗食",我想要两次这个二元组.但我得到它一次!
在thengram库或任何其他库中是否有一个选项可以在R中给出我句子的所有二维词?
我在Python 3.5中安装Scrapy.我在这里指的是安装指南.
我安装了pip和conda.我尝试了指南中提到的两种方法,但我收到此错误:
我已经安装pip和minoconda:
conda install -c scrapinghub scrapy
Run Code Online (Sandbox Code Playgroud)
和
pip install Scrapy
Run Code Online (Sandbox Code Playgroud)
安装有什么问题?
我有一个数据值数组如下:
0.000000000000000000e+00
3.617000000000000171e+01
1.426779999999999973e+02
2.526699999999999946e+01
4.483190000000000168e+02
7.413999999999999702e+00
1.132390000000000043e+02
8.797000000000000597e+00
1.362599999999999945e+01
2.080880900000000111e+04
5.580000000000000071e+00
3.947999999999999954e+00
2.615000000000000213e+00
2.458000000000000185e+00
8.204600000000000648e+01
1.641999999999999904e+00
5.108999999999999986e+00
2.388999999999999790e+00
2.105999999999999872e+00
5.783000000000000362e+00
4.309999999999999609e+00
3.685999999999999943e+00
6.339999999999999858e+00
2.198999999999999844e+00
3.568999999999999950e+00
2.883999999999999897e+00
7.307999999999999829e+00
2.515000000000000124e+00
3.810000000000000053e+00
2.829000000000000181e+00
2.593999999999999861e+00
3.963999999999999968e+00
7.258000000000000007e+00
3.543000000000000149e+00
2.874000000000000110e+00
................... and so on.
Run Code Online (Sandbox Code Playgroud)
我想绘制数据值的概率密度函数.我提到(Wiki)和scipy.stats.gaussian_kde.但我没有得到这是正确与否.我正在使用python.简单的数据绘图代码如下:
from matplotlib import pyplot as plt
plt.plot(Data)
Run Code Online (Sandbox Code Playgroud)
但现在我想绘制PDF(概率密度函数).但我没有在python中获得任何库.
我在 python 中有两列的 Numpy 数组,如下所示:
time,id
1,a
2,b
3,a
1,a
5,c
6,b
3,a
Run Code Online (Sandbox Code Playgroud)
我想占用每个用户的独特时间。对于上述数据,我想要低于输出。
time,id
1,a
2,b
3,a
5,c
6,b
Run Code Online (Sandbox Code Playgroud)
也就是说,我只想取唯一的行。所以, 1,a 和 3,a 不会在结果中重复。我将列作为字符串数据类型并有一个非常大的二维数组。一个解决方案可能是,我可以遍历所有行并制作一组。但这会很慢。请提出一种有效的方法来实现它。
我有1Xn单元格值的数组.我想计算matlab中给定范围内的值.我实现如下:
count1 = length(find(h{1}<ti & h{1}>ti-INT));
Run Code Online (Sandbox Code Playgroud)
h是我的单元格数组,我想要ti和ti-INT之间的值计数.
此实现提供了正确的结果,但速度非常慢.是否有更快的功能可用于指定的操作?