标签: text-processing

通过grep删除文本文件中的空行

FILE:

hello

world

foo

bar
Run Code Online (Sandbox Code Playgroud)

如何删除此中所有空的新行FILE

输出命令:

FILE:

hello
world
foo
bar
Run Code Online (Sandbox Code Playgroud)

linux grep text-processing

72
推荐指数
5
解决办法
9万
查看次数

文本处理 - Python与Perl性能

这是我的Perl和Python脚本,用于从大约21个日志文件进行一些简单的文本处理,每个大约300 KB到1 MB(最大)x重复5次(总共125个文件,由于日志重复5次).

Python代码(修改后使用编译re和使用的代码re.I)

#!/usr/bin/python

import re
import fileinput

exists_re = re.compile(r'^(.*?) INFO.*Such a record already exists', re.I)
location_re = re.compile(r'^AwbLocation (.*?) insert into', re.I)

for line in fileinput.input():
    fn = fileinput.filename()
    currline = line.rstrip()

    mprev = exists_re.search(currline)

    if(mprev):
        xlogtime = mprev.group(1)

    mcurr = location_re.search(currline)

    if(mcurr):
        print fn, xlogtime, mcurr.group(1)
Run Code Online (Sandbox Code Playgroud)

Perl代码

#!/usr/bin/perl

while (<>) {
    chomp;

    if (m/^(.*?) INFO.*Such a record already exists/i) {
        $xlogtime = $1;
    }

    if (m/^AwbLocation (.*?) insert into/i) …
Run Code Online (Sandbox Code Playgroud)

python regex perl performance text-processing

67
推荐指数
3
解决办法
3万
查看次数

uʍop-ǝpᴉsdn文本如何工作?

这是我发现的一个网站,它将生成任何英文文本的颠倒版本.

它是如何工作的?unicode有颠倒的字符吗?或者是什么?

如何编写自己的文本翻转功能?

unicode text-processing

64
推荐指数
5
解决办法
3万
查看次数

从文本中检测短语和关键字的算法

我有大约100兆字节的文本,没有任何标记,分为大约10,000个条目.我想自动生成一个'标签'列表.问题是有些词组(即短语)只有在组合在一起时才有意义.

如果我只计算单词,我会得到大量非常常见的单词(是,for,for,in,am等).我已经计算了它之前和之后的其他单词的数量和数量,但现在我真的无法弄清楚下一步该做什么有关2和3个单词短语的信息存在,但我该如何提取这些数据呢?

algorithm text-processing nlp

43
推荐指数
3
解决办法
3万
查看次数

42
推荐指数
7
解决办法
6万
查看次数

在Linux中的某一行添加文本到文件

我想添加一个特定的行,让我们说avatar一下以文件开头的文件,MakeFile并将avatar其添加到文件的第15行.

这是如何向文件添加文本:

echo 'avatar' >> MakeFile.websvc
Run Code Online (Sandbox Code Playgroud)

这是如何将文本添加到以MakeFile开头的文件我认为:

echo 'avatar' >> *MakeFile.
Run Code Online (Sandbox Code Playgroud)

但我无法将此行添加到文件的第15行.

linux text-processing

38
推荐指数
1
解决办法
7万
查看次数

从文件路径中删除第一个目录组件

我需要从Bash中的变量中删除一个目录(最左边).我找到了如何删除所有路径或使用的方法dirname,但是它删除了右侧的所有或一个路径组件; 它不会帮助我.所以你对我需要的东西有了更好的理解,我会写一个例子:

a/project/hello.c,a/project/docs/README......我想删除a/打完一些命令I'll有project/hello.cproject/docs/README,...

bash shell text-processing

37
推荐指数
3
解决办法
3万
查看次数

在Emacs中运行宏直到文本文件结束

我有一个文本文件,其中包含一些示例内容,如下所示:

Sno = 1p
Sno = 2p
Sno = 3p
Run Code Online (Sandbox Code Playgroud)

我想要的是p从每个列中删除.有了这个意图,我写了一个宏:

M-x //go to buffer
C-x (//start the macro
C-s = // search for equalto sign
RET C-f C-f // reach to te alphabet 'p'
DEL // Delete
C-n  C-x )//go to new line and Close the macro definition 
C-x e
Run Code Online (Sandbox Code Playgroud)

e两次将删除p,但万一我想做同样的东西,直到文件的结尾,我怎么能这样做我不能继续按,e如果我有20000这样的线.应该做什么??

请不要建议正则表达式,因为这是一个示例,而不是实际情况.请不要建议任何elisp,我很乐意记住emacs的shortcutf.

emacs macros text-processing

37
推荐指数
3
解决办法
9701
查看次数

如何在Linux上查找不包含文本的文本文件?

如何在Linux上找到包含某些文本的文件?基本上我正在寻找以下的反转

find . -print | xargs grep -iL "somestring"
Run Code Online (Sandbox Code Playgroud)

linux text-processing find

35
推荐指数
2
解决办法
3万
查看次数

扩展Python中的英语语言收缩

英语有几个收缩.例如:

you've -> you have
he's -> he is
Run Code Online (Sandbox Code Playgroud)

当您进行自然语言处理时,这些有时会引起头痛.是否有一个Python库,可以扩展这些收缩?

python text-processing nlp

35
推荐指数
5
解决办法
2万
查看次数

标签 统计

text-processing ×10

linux ×3

bash ×2

nlp ×2

python ×2

shell ×2

algorithm ×1

emacs ×1

find ×1

grep ×1

macros ×1

newline ×1

performance ×1

perl ×1

regex ×1

unicode ×1