标签: text-processing

在zip文件中是否有用于正则表达式匹配的python模块

我有超过一百万个文本文件压缩成40个zip文件.我还有一个大约500个手机型号名单.我想找出文本文件中提到的特定模型的次数.

是否有任何python模块可以对文件进行正则表达式匹配而不解压缩它.有没有解压这个问题的简单方法而不解压缩?

python regex zip text-processing

4
推荐指数
1
解决办法
1821
查看次数

你真的可以用GoF设计模式构建一个快速文字处理器吗?

Gang of Four的设计模式使用文字处理器作为其中至少一些模式的示例,尤其是Composite和Flyweight.

除了使用C或C++之外,你真的可以使用这些模式和面向对象的开销来编写一个高性能的全功能文字处理器吗?

我知道Eclipse是用Java编写的,但是我还没有使用它,所以我不知道它是否像Visual Studio这样具有基于C++的文本编辑系统那样快速或完美.


我只使用C++和Java作为例子.这个问题更多地与拥有大量内存中对象的开销有关,就像在文字处理器甚至游戏等应用程序中那样.

设计模式以简约性为代价促进抽象,即使它们通常会指出何时可能会遇到某种性能损失.字处理器,尤其是游戏,尽可能接近金属,从中获益最多.

我只是想知道是否有人知道一个快速的面向对象的文字处理器或文本编辑器不是用C++编写的,他们是否使用模式构建一个或者他们会放弃大量的抽象事物?

java ide performance text-processing design-patterns

4
推荐指数
1
解决办法
3262
查看次数

将栏放在包含foo的每一行的末尾

我有一个包含大量行的列表,每个行都采用subject-verb-object形式,例如:

Jane likes Fred
Chris dislikes Joe
Nate knows Jill

为了绘制表示有向颜色编码边缘中节点之间的不同关系的网络图,我将需要用箭头替换动词并在每行的末尾放置颜色代码,因此,有些简化:

Jane -> Fred red;
Chris -> Joe blue;
Nate -> Jill black;

只有少量的动词,所以用箭头替换它们只是一些搜索和替换命令的问题.然而,在这之前,我需要在与行的动词对应的每一行的末尾添加一个颜色代码.我想用Python做到这一点.

这些是我编程的宝贝步骤,所以请明确并包含读入文本文件的代码.

谢谢你的帮助!

python text-processing

4
推荐指数
1
解决办法
383
查看次数

有关以下自然语言处理条款的详细信息?

Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)
Run Code Online (Sandbox Code Playgroud)

我可以使用哪些库来完成NLP的上述任何功能吗?

真的不想向AlchemyAPI出钱

text-processing nlp libraries

4
推荐指数
1
解决办法
447
查看次数

使用PHP提取HTML文档的正文文本

我知道为此目的使用DOM会更好,但让我们尝试以这种方式提取文本:

<?php


$html=<<<EOD
<html>
<head>
</head>
<body>
<p>Some text</p>
</body>
</html>
EOD;


        preg_match('/<body.*?>/', $html, $matches, PREG_OFFSET_CAPTURE);

        if (empty($matches))
            exit;

        $matched_body_start_tag = $matches[0][0];
        $index_of_body_start_tag = $matches[0][1];

        $index_of_body_end_tag = strpos($html, '</body>');


        $body = substr(
                        $html,
                        $index_of_body_start_tag + strlen($matched_body_start_tag),
                        $index_of_body_end_tag - $index_of_body_start_tag + strlen($matched_body_start_tag)
        );

echo $body;
Run Code Online (Sandbox Code Playgroud)

结果可以在这里看到:http://ideone.com/vH2FZ

如您所见,我收到的文字多于预期.

有一些我不明白的东西,为了获得substr($string, $start, $length)函数的正确长度,我正在使用:

$index_of_body_end_tag - $index_of_body_start_tag + strlen($matched_body_start_tag)
Run Code Online (Sandbox Code Playgroud)

我没有看到这个公式有什么问题.

有人可以建议问题出在哪里吗?

非常感谢大家.

编辑:

非常感谢你们所有人.我脑子里只有一个小虫.在阅读完答案后,我现在明白了问题所在,它应该是:

  $index_of_body_end_tag - ($index_of_body_start_tag + strlen($matched_body_start_tag));
Run Code Online (Sandbox Code Playgroud)

要么:

  $index_of_body_end_tag - $index_of_body_start_tag - strlen($matched_body_start_tag);
Run Code Online (Sandbox Code Playgroud)

php regex text text-processing html-content-extraction

4
推荐指数
1
解决办法
6405
查看次数

如何在python中编写一个处理文本流的程序?

如果这是一个重复的问题,我很抱歉.如何编写python脚本来处理数据流?我需要这样做,因为我正在处理的文件很大,我宁愿不把文件读入内存.

我知道你可以一次读取一行文件,但我想要一些能处理文本流的东西.

python text-processing inputstream

4
推荐指数
2
解决办法
2万
查看次数

通过发音找到类似的单词 - 算法,方法,库

通过'table',它应该找到'cable','tabular'等.例如你在字典中输入类型的单词,它说你可能想要word1,word2,它拼写为我输入的单词.

使用的算法和方法的名称是什么?任何提供功能的库(C/C++,Ruby)?

我需要通过单词搜索(类似字典的应用程序),没有短语,句子等.

c++ ruby search text text-processing

4
推荐指数
2
解决办法
960
查看次数

Perl中的条件分裂

我有以下句子:

my $sent = 'D. discoideum and D. purpureum developmental programs revealed';
Run Code Online (Sandbox Code Playgroud)

有没有办法我可以分割线条,使两个连续的单词有'.' 中间的(点)将被视为一个单词?

因此我们希望在拆分后得到这个:

$VAR = ['D. discoideum', 
         'and', 
         'D. purpureum',
         'developmental',
         'programs',  
         'revealed'];
Run Code Online (Sandbox Code Playgroud)

该标准s/\s+//g将根据空间分割所有内容.

unix linux perl text-processing

4
推荐指数
1
解决办法
261
查看次数

如何在这个AWK单线程中删除双引号,并删除第一条记录?

试图在我的AWK代码中找到所有独特制造商的列表.我使用以下内容成功地从CSV中提取它们并输出到换行符分隔的文本文件,以便将来php导入到Magento:

awk 'BEGIN {FS=";";ORS="\n";}a[$33]++==0 {print $33}' ./rsrimport/IMPORT.csv >OUTPUT.txt
Run Code Online (Sandbox Code Playgroud)

输出这个:

"manufacturer"
"5.11 Tactical"
"Advantage Arms"
"Advanced Armament Corp"
"Ultra Dot"
"American Classic"
"AccuSharp"
"Adams Arms"
"American Defense Mfg."
"Advanced Technology"
"A&G"
"Aimpoint"
""
"Arsenal, Inc."
"Allen"
"AmeriGlo"
"Apex Tactical Specialties"
"Armscor"
"Armalite"
"A.R.M.S., Inc."
"ASP"
Run Code Online (Sandbox Code Playgroud)

我想做的是三重:

  1. 剥去双引号
  2. 删除第一行(文件中的标题)
  3. 消除任何空白(带""的行)

一直苦苦挣扎,阅读无数的论坛.感谢您的任何帮助,您可以提供!

php awk text-processing

4
推荐指数
1
解决办法
4586
查看次数

qdap包:将零位数转换为"零"字的错误

之前(作为一个菜鸟)我把它作为一个R包bug提交,让我一起运行吧.我认为以下所有都是好的:

replace_number("123 0 boogie")
[1] "one hundred twenty three boogie"
replace_number("1;1 foo")
[1] "one;one foo"
replace_number("47 bar")
[1] "forty seven bar"
replace_number("0")
"zero"
Run Code Online (Sandbox Code Playgroud)

我认为以下所有内容都很糟糕,因为输出中缺少"零":

replace_number("1;0 foo")
[1] "one; foo"
replace_number("00 bar")
[1] "bar"
replace_number("0x")
[1] "x"
Run Code Online (Sandbox Code Playgroud)

基本上,我会说它replace_number()无法处理包含数字0的字符串("0"除外).这是一个真正的错误吗?

text-processing numbers r qdap

4
推荐指数
1
解决办法
52
查看次数