标签: text-processing

Perl:使用基于索引的方法循环输入行

这是perl中的初学者最佳实践问题.我是这种语言的新手.问题是:

如果我想处理程序中的输出行,我该如何以特殊方式格式化第一行？

我想到了两种可能性:

1)设置第一次循环后的标志变量.但它将针对每个周期进行评估.不好的解决方案

2)基于索引的循环(如"for").然后我会在i = 1中启动循环.这个解决方案要好得多.问题是我该怎么做？

我刚刚找到了使用while(<>)构造循环的代码.

在这里你可以看到更好的:

$command_string = "par-format 70j p0 s0 < " . $ARGV[0] . "|\n";                                                                                

open DATA, $command_string  or die "Couldn't execute program: $!";

print "\t    <div>&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;|-- <strong>Description</strong></div>\n";
while ( defined( my $line = <DATA> )  ) {
   chomp($line);
   # print "$line\n";
   print "\t    <div>&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;&?nbsp;|&?nbsp;&?nbsp;&?nbsp;-- " . $line  . "</div>\n";
}

close DATA;

Run Code Online (Sandbox Code Playgroud)

也请不要犹豫,纠正这里的任何代码,这是我的第一首perl诗.

谢谢!

perl text-processing

alv*_*tar

2009 05-22

3
推荐指数

2
解决办法

990
查看次数

术语聚类库？

有没有人知道一个开源\免费库,它可以进行术语聚类？

谢谢,yaniv

text-processing information-retrieval text-analysis text-mining

Ale*_*oks

2009 12-25

3
推荐指数

1
解决办法

433
查看次数

从XML文件中删除标头的简单方法

我需要从另一个程序生成的文件中删除非xml标签.

该文件是这样的:

Executing Command - Blah.exe ...
-----Command Output-----
HTTP/1.1 200 OK
Connection: close
Content-Type: text/xml

<?xml version="1.0"?>
<testResults>
  <finalCounts>
    <right>7</right>
    <wrong>4</wrong>
    <ignores>0</ignores>
    <exceptions>0</exceptions>
  </finalCounts>
</testResults>

Exit-Code: 15

Run Code Online (Sandbox Code Playgroud)

如何在java中轻松删除非xml文本？

java xml text-processing

And*_*elo

2011 08-31

3
推荐指数

1
解决办法

3517
查看次数

不感兴趣的单词列表

[买者]这不是一个直接的问题编程,但它是在语言处理,我敢肯定它的一些应用向社会经常出现.

有没有人有一个很好的无趣(英语)单词列表,经过多次随意的测试？这将包括所有介词,连词等......可能具有语义含义但在每个句子中经常出现的词,无论主题如何.我不时为个人项目建立自己的名单,但他们一直是临时的; 我不断添加他们进来时忘记的单词.

text-processing nlp stop-words

Hoo*_*ked

2010 11-08

3
推荐指数

1
解决办法

1163
查看次数

Bash:替换文本文件中的字符串的任何命令？

我有一个包含许多文本文件的目录层次结构.我希望每次在其中一个文件中出现时搜索特定的文本字符串,并将其替换为另一个字符串.例如,我可能想要用"Pepsi"替换字符串"Coke"的每个匹配项.有谁知道如何做到这一点？我想知道是否有某种Bash命令可以做到这一点,而无需在编辑器中加载所有这些文件,或者想出一个更复杂的脚本来完成它.

我发现这个页面使用sed解释了一个技巧,但它似乎不适用于子目录中的文件.

bash shell text-processing replace

Eli*_*ria

lucky-day

3
推荐指数

1
解决办法

3636
查看次数

如何加入每一条双线？

我有一个文本文件,

a1
a2
b1
b2
c1
c2
...

Run Code Online (Sandbox Code Playgroud)

我想加入两行,所以可以sort:

a1:a2
b1:b2
c1:c2
...

Run Code Online (Sandbox Code Playgroud)

我正在使用bash.该read功能会占用领先的空间,这是不受欢迎的.我讨厌编写简单的愚蠢的C程序.

然后,我可以使用tr : "\n"将连接的文件拆分回两个文件.

linux bash text-processing sed

Xiè*_*léi

lucky-day

3
推荐指数

1
解决办法

650
查看次数

以4个为一组从HUGE文本文件中读取行

几天后我遇到了python问题.我是一名没有基本编程技能的生物信息学,我正在处理我必须处理的大文本文件(约25gb).

我必须逐行读取txt文件,每组4行,这意味着必须读取和处理前4行,然后我必须读取第2组4行,依此类推.

显然我不能使用readlines()运算符,因为它会使我的内存过载,我必须使用4行中的每一行进行一些字符串识别.

我考虑过使用带有范围运算符的for循环:

openfile = open(path, 'r')

for elem in range(0, len(openfile), 4):

line1 = readline()
line2 = readline()
line3 = readline()
line4 = readline()
(process lines...)

Run Code Online (Sandbox Code Playgroud)

不幸的是,这是不可能的,因为处于"读取"模式的文件不能被迭代并被视为列表或字典.

任何人都可以帮忙正确地循环吗？

提前致谢

python text-processing readline text-files

War*_*ega

lucky-day

3
推荐指数

1
解决办法

4070
查看次数

单元格数组,为每个字符串添加后缀

假设我有一个包含字符串的单元格数组:

c = {'foo1', 'foo2', 'foo3'}

Run Code Online (Sandbox Code Playgroud)

我现在想为bar每个字符串添加相同的后缀" ",以便单元格数组变为:

c = {'foo1bar', 'foo2bar', 'foo3bar'}

Run Code Online (Sandbox Code Playgroud)

有这样做的快捷方式,没有显式循环每个元素？

string matlab text-processing cell-array

Kar*_*rus

2014 03-18

3
推荐指数

1
解决办法

971
查看次数

如何将单词拆分为双字节,包括重复单词？

我想把一个单词分成双字组.我正在使用该qlcMatrix包,但它只返回不同的二元组.例如,对于单词"detected",它只返回"te"一次.这是我使用的命令

test_domain <- c("detected")
library("qlcMatrix", lib.loc="~/R/win-library/3.2")
bigram1 <- splitStrings(test_domain, sep = "", bigrams = TRUE, left.boundary = "", right.boundary = "")$bigrams

Run Code Online (Sandbox Code Playgroud)

这是我得到的结果:

bigram1
# [1] "ec" "ed" "de" "te" "ct" "et"

Run Code Online (Sandbox Code Playgroud)

text-processing r

Sot*_*tos

2019 02-26

3
推荐指数

2
解决办法

163
查看次数

如何检查字符串是否只包含Rust中的字符集？

在Rust中检查字符串是否只包含某组字符的惯用方法是什么？

text-processing rust

Aar*_*man

2018 07-20

3
推荐指数

2
解决办法

1561
查看次数

标签统计

text-processing ×10

bash ×2

cell-array ×1

information-retrieval ×1

java ×1

linux ×1

matlab ×1

nlp ×1

perl ×1

python ×1

r ×1

readline ×1

replace ×1

rust ×1

sed ×1

shell ×1

stop-words ×1

string ×1

text-analysis ×1

text-files ×1

text-mining ×1

xml ×1

标签 统计

标签统计