标签: string-matching

Python中的字符串匹配

有谁知道在Python中实现了哪种字符串匹配算法？

python string-matching

Pau*_*aul

lucky-day

3
推荐指数

1
解决办法

1307
查看次数

从Awk中读取stderr

我想将SSH调试信息与其他输入分开(并记录).但是,如果我只是将stderr重定向到日志文件,我冒险将SSH的输出和主机上的远程进程的输出结合起来(可能会向stderr发送一些内容):

$ ssh -v somemachine 2> file.log

Run Code Online (Sandbox Code Playgroud)

所以,我想过滤掉那些匹配"debug1"的行:

$ ssh -v somemachine | awk '/debug1/ {print > "file.log"; next} {print}'

Run Code Online (Sandbox Code Playgroud)

好到目前为止,但是ssh的调试输出转到了stderr.所以...

$ ssh -v somemachine 2>& | awk '/debug1/ {print > "file.log"; next} {print}'

Run Code Online (Sandbox Code Playgroud)

再次挫败!我不想混合stdout和stderr.坏!

像我这样的孩子做什么？我正打算使用命名管道或一些野性的路线,但实际上,我需要知道的是如何让awk匹配来自stderr的模式.

awk redirect string-matching

Dav*_*ave

2010 03-24

3
推荐指数

1
解决办法

4380
查看次数

在Python中一次迭代String字

我有一个巨大的文本文件的字符串缓冲区.我必须在字符串缓冲区中搜索给定的单词/短语.什么是有效的方法呢？

我尝试使用re模块匹配.但由于我有一个巨大的文本语料库,我必须搜索.这需要花费大量时间.

给出单词和短语词典.

我遍历每个文件,将其读入字符串,搜索字典中的所有单词和短语,并在找到键时增加字典中的计数.

我们认为的一个小优化是将短语/单词的字典排序为最大单词数.然后比较字符串缓冲区中的每个单词起始位置并比较单词列表.如果找到一个短语,我们不会搜索其他短语(因为它匹配最长的短语,这是我们想要的)

有人可以建议如何在字符串缓冲区中逐字逐句.(逐字迭代字符串缓冲区)？

此外,还有其他优化可以做到吗？

data = str(file_content)
for j in dictionary_entity.keys():
    cnt = data.count(j+" ")
    if cnt != -1:
        dictionary_entity[j] = dictionary_entity[j] + cnt
f.close()

Run Code Online (Sandbox Code Playgroud)

python string string-matching

Alg*_*Man

2010 05-05

3
推荐指数

1
解决办法

1万
查看次数

perl读取文件并抓取特定的行

我有一个文本文件,我想抓住以模式开头并以特定模式结束的特定行.例:

Text
Text
Startpattern
print this line
Print this line
print this line
Endpattern
Text
Text
Text

Run Code Online (Sandbox Code Playgroud)

还应打印开始图案和结束图案.我的第一次尝试并没有真正成功:


my $LOGFILE = "/var/log/logfile";
my @array;
# open the file (or die trying)

open(LOGFILE) or die("Could not open log file.");
foreach $line () {
  if($line =~  m/Sstartpattern/i){
    print $line;
    foreach $line2 () {
      if(!$line =~  m/Endpattern/i){
        print $line2;
      }
    }
  }
}
close(LOGFILE);

Run Code Online (Sandbox Code Playgroud)

在此先感谢您的帮助.

perl file string-matching

Ste*_*fan

2011 03-22

3
推荐指数

1
解决办法

1万
查看次数

检查单词列表中单词的子字符串匹配

我想检查单词列表中是否有单词.

word = "with"
word_list = ["without", "bla", "foo", "bar"]

Run Code Online (Sandbox Code Playgroud)

我试过了if word in set(list),但由于事实in是匹配字符串而不是项目,所以不会产生想要的结果.也就是说,"with"在任何一个词中都是匹配word_list但仍然if "with" in set(list)会说True.

执行此检查的简单方法是什么,而不是手动迭代list？

python substring string-matching

Fla*_*ake

2011 11-27

3
推荐指数

1
解决办法

6773
查看次数

Unicode字符串匹配

我想在Java中使用Unicode编码匹配两个字符串.我希望匹配以下内容:

"asdfeo"
"ásdfeó"

Run Code Online (Sandbox Code Playgroud)

如何在compareTo()方法中返回0 ？

编辑:

当我在没有变音符号的情况下将字符串键入自动完成视图时(由于某种原因我没有键盘来编写那些变音符号),我想在自动完成建议之间看到具有变音符号的对象.这就是为什么我要覆盖这个compareTo()方法.

java string unicode string-matching

ove*_*t13

2012 05-02

3
推荐指数

1
解决办法

315
查看次数

无论时态或形式如何,我如何匹配单词？

我目前正在编写一个运行文档的脚本,提取所有关键字,然后尝试将这些关键字与其他文档中的关键字进行匹配.有一些细节使这个问题复杂化,但它们与我的问题不太相关.基本上我希望能够匹配单词而不管它们出现的时态.

例如:如果给出字符串"游泳","游泳"和"游泳",我想要一个程序,可以识别这些都是相同的单词,但它是否会存储游泳,游泳或游泳等单词对我而言非常重要.

我知道这个问题可以通过包含所有这些单词形式的字典来解决,但我不知道任何以这种方式映射的字典对此有用.我更喜欢与Python兼容的解决方案或库,因为这是我目前用于此脚本的内容,但我可以使用几乎任何语言的解决方案(除了haskell或eiffel或类似的模糊/难以与...合作)

python nlp nltk string-matching

Sla*_*off

2012 06-02

3
推荐指数

1
解决办法

833
查看次数

如何在Java中使用Regex进行模式匹配？

我已经在线阅读了文档和各种教程,但我仍然对正则表达式如何在Java中工作感到困惑.我要做的是创建一个接受类型字符串参数的函数.然后,我想检查传递的字符串是否包含除MDCLXVIivxlcdm之外的任何字符.因此,例如,字符串"XMLVID"应返回false,"ABXMLVA"应返回true.

public boolean checkString(String arg)
{
     Pattern p = Pattern.complile("[a-zA-z]&&[^MDCLXVIivxlcdm]");
     Matcher m = p.matcher(arg);
     if(m.matches())
          return true;
     else
          return false;
 }

Run Code Online (Sandbox Code Playgroud)

当我通过时,"XMLIVD","ABXMLVA"和"XMLABCIX"都返回false.我究竟做错了什么？任何帮助将不胜感激.

java regex string string-matching

PAu*_*a03

2013 02-14

3
推荐指数

1
解决办法

1万
查看次数