标签: text-processing

Perl:使用基于索引的方法循环输入行

这是perl中的初学者最佳实践问题.我是这种语言的新手.问题是:

如果我想处理程序中的输出行,我该如何以特殊方式格式化第一行?

我想到了两种可能性:

1)设置第一次循环后的标志变量.但它将针对每个周期进行评估.不好的解决方案

2)基于索引的循环(如"for").然后我会在i = 1中启动循环.这个解决方案要好得多.问题是我该怎么做?

我刚刚找到了使用while(<>)构造循环的代码.

在这里你可以看到更好的:

$command_string = "par-format 70j p0 s0 < " . $ARGV[0] . "|\n";                                                                                

open DATA, $command_string  or die "Couldn't execute program: $!";

print "\t    <div>&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;|-- <strong>Description</strong></div>\n";
while ( defined( my $line = <DATA> )  ) {
   chomp($line);
   # print "$line\n";
   print "\t    <div>&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;|&?nbsp;&?nbsp;&?nbsp;-- " . $line  . "</div>\n";
}

close DATA;
Run Code Online (Sandbox Code Playgroud)

也请不要犹豫,纠正这里的任何代码,这是我的第一首perl诗.

谢谢!

perl text-processing

3
推荐指数
2
解决办法
990
查看次数

术语聚类库?

有没有人知道一个开源\免费库,它可以进行术语聚类?

谢谢,yaniv

text-processing information-retrieval text-analysis text-mining

3
推荐指数
1
解决办法
433
查看次数

从XML文件中删除标头的简单方法

我需要从另一个程序生成的文件中删除非xml标签.

该文件是这样的:

Executing Command - Blah.exe ...
-----Command Output-----
HTTP/1.1 200 OK
Connection: close
Content-Type: text/xml

<?xml version="1.0"?>
<testResults>
  <finalCounts>
    <right>7</right>
    <wrong>4</wrong>
    <ignores>0</ignores>
    <exceptions>0</exceptions>
  </finalCounts>
</testResults>

Exit-Code: 15
Run Code Online (Sandbox Code Playgroud)

如何在java中轻松删除非xml文本?

java xml text-processing

3
推荐指数
1
解决办法
3517
查看次数

不感兴趣的单词列表

[买者]这不是一个直接的问题编程,但它是在语言处理,我敢肯定它的一些应用向社会经常出现.

有没有人有一个很好的无趣(英语)单词列表,经过多次随意的测试?这将包括所有介词,连词等......可能具有语义含义但在每个句子中经常出现的词,无论主题如何.我不时为个人项目建立自己的名单,但他们一直是临时的; 我不断添加他们进来时忘记的单词.

text-processing nlp stop-words

3
推荐指数
1
解决办法
1163
查看次数

Bash:替换文本文件中的字符串的任何命令?

我有一个包含许多文本文件的目录层次结构.我希望每次在其中一个文件中出现时搜索特定的文本字符串,并将其替换为另一个字符串.例如,我可能想要用"Pepsi"替换字符串"Coke"的每个匹配项.有谁知道如何做到这一点?我想知道是否有某种Bash命令可以做到这一点,而无需在编辑器中加载所有这些文件,或者想出一个更复杂的脚本来完成它.

我发现这个页面使用sed解释了一个技巧,但它似乎不适用于子目录中的文件.

bash shell text-processing replace

3
推荐指数
1
解决办法
3636
查看次数

如何加入每一条双线?

我有一个文本文件,

a1
a2
b1
b2
c1
c2
...
Run Code Online (Sandbox Code Playgroud)

我想加入两行,所以可以sort:

a1:a2
b1:b2
c1:c2
...
Run Code Online (Sandbox Code Playgroud)

我正在使用bash.该read功能会占用领先的空间,这是不受欢迎的.我讨厌编写简单的愚蠢的C程序.

然后,我可以使用tr : "\n"将连接的文件拆分回两个文件.

linux bash text-processing sed

3
推荐指数
1
解决办法
650
查看次数

以4个为一组从HUGE文本文件中读取行

几天后我遇到了python问题.我是一名没有基本编程技能的生物信息学,我正在处理我必须处理的大文本文件(约25gb).

我必须逐行读取txt文件,每组4行,这意味着必须读取和处理前4行,然后我必须读取第2组4行,依此类推.

显然我不能使用readlines()运算符,因为它会使我的内存过载,我必须使用4行中的每一行进行一些字符串识别.

我考虑过使用带有范围运算符的for循环:

openfile = open(path, 'r')

for elem in range(0, len(openfile), 4):

line1 = readline()
line2 = readline()
line3 = readline()
line4 = readline()
(process lines...)
Run Code Online (Sandbox Code Playgroud)

不幸的是,这是不可能的,因为处于"读取"模式的文件不能被迭代并被视为列表或字典.

任何人都可以帮忙正确地循环吗?

提前致谢

python text-processing readline text-files

3
推荐指数
1
解决办法
4070
查看次数

单元格数组,为每个字符串添加后缀

假设我有一个包含字符串的单元格数组:

c = {'foo1', 'foo2', 'foo3'}
Run Code Online (Sandbox Code Playgroud)

我现在想为bar每个字符串添加相同的后缀" ",以便单元格数组变为:

c = {'foo1bar', 'foo2bar', 'foo3bar'}
Run Code Online (Sandbox Code Playgroud)

有这样做的快捷方式,没有显式循环每个元素?

string matlab text-processing cell-array

3
推荐指数
1
解决办法
971
查看次数

如何将单词拆分为双字节,包括重复单词?

我想把一个单词分成双字组.我正在使用该qlcMatrix包,但它只返回不同的二元组.例如,对于单词"detected",它只返回"te"一次.这是我使用的命令

test_domain <- c("detected")
library("qlcMatrix", lib.loc="~/R/win-library/3.2")
bigram1 <- splitStrings(test_domain, sep = "", bigrams = TRUE, left.boundary = "", right.boundary = "")$bigrams
Run Code Online (Sandbox Code Playgroud)

这是我得到的结果:

bigram1
# [1] "ec" "ed" "de" "te" "ct" "et"
Run Code Online (Sandbox Code Playgroud)

text-processing r

3
推荐指数
2
解决办法
163
查看次数

如何检查字符串是否只包含Rust中的字符集?

在Rust中检查字符串是否只包含某组字符的惯用方法是什么?

text-processing rust

3
推荐指数
2
解决办法
1561
查看次数