我一直在研究基于压缩的文本分类,我试图找出一种方法来存储由编码器构建的字典(在训练文件中),以便在测试文件上"静态"运行?使用UNIX的gzip实用程序可以实现这一点吗?
例如,我一直在使用sport.txt和atheism.txt的2个"类"文件,因此我想对这两个文件运行压缩并存储它们使用的字典.接下来我想要一个测试文件(没有标记,可能是无神论或运动),并通过使用此test.txt上的预构建词典,我可以分析它在该词典/模型下的压缩程度.
谢谢
我正在研究一个数学项目,只是碰到了bash编程的砖墙.
目前,我有一个包含800个文本文件的目录,我想要做的就是运行一个循环到什么猫第80个文件(_01通过对_80)到一个新的文件,并保存到其他地方,那么接下来的80(_81至_160)文件等等
目录中的所有文件都列出如下:ath_01,ath_02,ath_03等.
有人可以帮忙吗?
到目前为止,我有:
#!/bin/bash
for file in /dir/*
do
echo ${file}
done
Run Code Online (Sandbox Code Playgroud)
这只是简单列出我的文件.我知道我需要以某种方式使用cat file1 file2> newfile.txt,但它让我与_01,_02等的数字扩展混淆.
如果我更改文件的名称以使用除下划线之外的其他内容,它会有帮助吗?喜欢ath.01等?
干杯,