Alj*_*n15 9 python dataframe pandas zstd
对于 Python 来说,我还是个初学者,但我在学校的一个项目需要我对这个 Reddit 流行度数据集执行分类算法。这些文件是巨大的 .zst 文件,可以在这里找到: https: //files.pushshift.io/reddit/submissions/ 无论如何,我只是不确定如何将其提取到数据库中,因为我们已经完成了作业到目前为止,我只使用了 .csv 数据集,我可以轻松地将其放入 pandas 数据框中。我偶然发现了另一篇文章,并尝试使用代码:
def transform_zst_file(self,infile):
zst_num_bytes = 2**22
lines_read = 0
dctx = zstd.ZstdDecompressor()
with dctx.stream_reader(infile) as reader:
previous_line = ""
while True:
chunk = reader.read(zst_num_bytes)
if not chunk:
break
string_data = chunk.decode('utf-8')
lines = string_data.split("\n")
for i, line in enumerate(lines[:-1]):
if i == 0:
line = previous_line + line
self.appendData(line, self.type)
lines_read += 1
if self.max_lines_to_read and lines_read >= self.max_lines_to_read:
return
previous_line = lines[-1]
Run Code Online (Sandbox Code Playgroud)
但我不完全确定如何将其放入 pandas 数据框中,或者如果文件太大,则仅将一定比例的数据点放入数据框中。任何帮助将不胜感激!
每次我尝试运行以下代码时,它只会使我的计算机崩溃:
import zstandard as zstd
your_filename = "..."
with open(your_filename, "rb") as f:
data = f.read()
dctx = zstd.ZstdDecompressor()
decompressed = dctx.decompress(data)
Run Code Online (Sandbox Code Playgroud)
可能是由于文件的大小太大,有没有办法将该文件的一部分提取到 pandas 数据框中?
该文件已使用压缩库Zstandard ( https://github.com/facebook/zstd ) 进行压缩。
对您来说最简单的事情可能是使用以下命令安装 python-zstandard ( https://pypi.org/project/zstandard/ )
pip install zstandard
Run Code Online (Sandbox Code Playgroud)
然后在 python 脚本中运行类似的东西
import zstandard as zstd
your_filename = "..."
with open(your_filename, "rb") as f:
data = f.read()
dctx = zstd.ZstdDecompressor()
decompressed = dctx.decompress(data)
Run Code Online (Sandbox Code Playgroud)
现在您可以直接使用解压后的数据,也可以将其写入某个文件,然后加载到 pandas 中。祝你好运!