标签: string-matching

Python中的字符串匹配

有谁知道在Python中实现了哪种字符串匹配算法?

python string-matching

3
推荐指数
1
解决办法
1307
查看次数

从Awk中读取stderr

我想将SSH调试信息与其他输入分开(并记录).但是,如果我只是将stderr重定向到日志文件,我冒险将SSH的输出和主机上的远程进程的输出结合起来(可能会向stderr发送一些内容):

$ ssh -v somemachine 2> file.log
Run Code Online (Sandbox Code Playgroud)

所以,我想过滤掉那些匹配"debug1"的行:

$ ssh -v somemachine | awk '/debug1/ {print > "file.log"; next} {print}'
Run Code Online (Sandbox Code Playgroud)

好到目前为止,但是ssh的调试输出转到了stderr.所以...

$ ssh -v somemachine 2>& | awk '/debug1/ {print > "file.log"; next} {print}'
Run Code Online (Sandbox Code Playgroud)

再次挫败!我不想混合stdout和stderr.坏!

像我这样的孩子做什么?我正打算使用命名管道或一些野性的路线,但实际上,我需要知道的是如何让awk匹配来自stderr的模式.

awk redirect string-matching

3
推荐指数
1
解决办法
4380
查看次数

在Python中一次迭代String字

我有一个巨大的文本文件的字符串缓冲区.我必须在字符串缓冲区中搜索给定的单词/短语.什么是有效的方法呢?

我尝试使用re模块匹配.但由于我有一个巨大的文本语料库,我必须搜索.这需要花费大量时间.

给出单词和短语词典.

我遍历每个文件,将其读入字符串,搜索字典中的所有单词和短语,并在找到键时增加字典中的计数.

我们认为的一个小优化是将短语/单词的字典排序为最大单词数.然后比较字符串缓冲区中的每个单词起始位置并比较单词列表.如果找到一个短语,我们不会搜索其他短语(因为它匹配最长的短语,这是我们想要的)

有人可以建议如何在字符串缓冲区中逐字逐句.(逐字迭代字符串缓冲区)?

此外,还有其他优化可以做到吗?

data = str(file_content)
for j in dictionary_entity.keys():
    cnt = data.count(j+" ")
    if cnt != -1:
        dictionary_entity[j] = dictionary_entity[j] + cnt
f.close()
Run Code Online (Sandbox Code Playgroud)

python string string-matching

3
推荐指数
1
解决办法
1万
查看次数

perl读取文件并抓取特定的行

我有一个文本文件,我想抓住以模式开头并以特定模式结束的特定行.例:

Text
Text
Startpattern
print this line
Print this line
print this line
Endpattern
Text
Text
Text
Run Code Online (Sandbox Code Playgroud)

还应打印开始图案和结束图案.我的第一次尝试并没有真正成功:


my $LOGFILE = "/var/log/logfile";
my @array;
# open the file (or die trying)

open(LOGFILE) or die("Could not open log file.");
foreach $line () {
  if($line =~  m/Sstartpattern/i){
    print $line;
    foreach $line2 () {
      if(!$line =~  m/Endpattern/i){
        print $line2;
      }
    }
  }
}
close(LOGFILE);
Run Code Online (Sandbox Code Playgroud)

在此先感谢您的帮助.

perl file string-matching

3
推荐指数
1
解决办法
1万
查看次数

检查单词列表中单词的子字符串匹配

我想检查单词列表中是否有单词.

word = "with"
word_list = ["without", "bla", "foo", "bar"]
Run Code Online (Sandbox Code Playgroud)

我试过了if word in set(list),但由于事实in是匹配字符串而不是项目,所以不会产生想要的结果.也就是说,"with"在任何一个词中都是匹配word_list但仍然if "with" in set(list)会说True.

执行此检查的简单方法是什么,而不是手动迭代list

python substring string-matching

3
推荐指数
1
解决办法
6773
查看次数

Unicode字符串匹配

我想在Java中使用Unicode编码匹配两个字符串.我希望匹配以下内容:

"asdfeo"
"ásdfeó"
Run Code Online (Sandbox Code Playgroud)

如何在compareTo()方法中返回0 ?


编辑:

当我在没有变音符号的情况下将字符串键入自动完成视图时(由于某种原因我没有键盘来编写那些变音符号),我想在自动完成建议之间看到具有变音符号的对象.这就是为什么我要覆盖这个compareTo()方法.

java string unicode string-matching

3
推荐指数
1
解决办法
315
查看次数

无论时态或形式如何,我如何匹配单词?

我目前正在编写一个运行文档的脚本,提取所有关键字,然后尝试将这些关键字与其他文档中的关键字进行匹配.有一些细节使这个问题复杂化,但它们与我的问题不太相关.基本上我希望能够匹配单词而不管它们出现的时态.

例如:如果给出字符串"游泳","游泳"和"游泳",我想要一个程序,可以识别这些都是相同的单词,但它是否会存储游泳,游泳或游泳等单词对我而言非常重要.

我知道这个问题可以通过包含所有这些单词形式的字典来解决,但我不知道任何以这种方式映射的字典对此有用.我更喜欢与Python兼容的解决方案或库,因为这是我目前用于此脚本的内容,但我可以使用几乎任何语言的解决方案(除了haskell或eiffel或类似的模糊/难以与...合作)

python nlp nltk string-matching

3
推荐指数
1
解决办法
833
查看次数

如何在Java中使用Regex进行模式匹配?

我已经在线阅读了文档和各种教程,但我仍然对正则表达式如何在Java中工作感到困惑.我要做的是创建一个接受类型字符串参数的函数.然后,我想检查传递的字符串是否包含除MDCLXVIivxlcdm之外的任何字符.因此,例如,字符串"XMLVID​​"应返回false,"ABXMLVA"应返回true.

public boolean checkString(String arg)
{
     Pattern p = Pattern.complile("[a-zA-z]&&[^MDCLXVIivxlcdm]");
     Matcher m = p.matcher(arg);
     if(m.matches())
          return true;
     else
          return false;
 }
Run Code Online (Sandbox Code Playgroud)

当我通过时,"XMLIVD","ABXMLVA"和"XMLABCIX"都返回false.我究竟做错了什么?任何帮助将不胜感激.

java regex string string-matching

3
推荐指数
1
解决办法
1万
查看次数

R中的agrep max.distance参数

我需要一些帮助来解决R中agrep包的具体参数.

就成本而言,所有,插入,删除和取代均具有"取代的最大数量/分数"整数或分数输入参数.

我已阅读有关它的文档,但我仍然无法弄清楚一些细节:

  • "cost = 1"和"all = 1"有什么区别?
  • 如何解释小数,例如"cost = 0.1","inserts = 0.9","all = 0.25"等?
  • 我理解Levenshtein距离的基础知识,但它如何应用于成本或所有参数?

对不起,如果这是相当基本的,但就像我说的,我读过的文档有点令人困惑.

提前致谢

string grep r string-matching agrep

3
推荐指数
1
解决办法
1698
查看次数

没有特定CELL的Excel MATCH范围

在互联网上进行深入搜索后,我放弃了。

我的“简单”问题是: 如何在公式中(最好在MATCH中)添加两个范围?

我想搜索A1:A7 + A9:A20之类的范围,因此不在我的范围内包含A8。

这可能吗?请帮帮我

excel range cell excel-formula string-matching

3
推荐指数
1
解决办法
69
查看次数

标签 统计

string-matching ×10

python ×4

string ×4

java ×2

agrep ×1

awk ×1

cell ×1

excel ×1

excel-formula ×1

file ×1

grep ×1

nlp ×1

nltk ×1

perl ×1

r ×1

range ×1

redirect ×1

regex ×1

substring ×1

unicode ×1