标签: text-processing

Google图书的热门文章功能是如何开发的?

我很好奇,如果有人理解,知道或可以指向我关于谷歌如何创建他们的流行通道块功能的综合文献或源代码.但是,如果您知道任何其他可以执行相同操作的应用程序,请发布您的答案.

如果您不知道我在写什么,这里有一个热门通道示例链接.当您查看" 信息技术应用程序的法律决策过程建模 "一书的概述时......通过Georgios N. Yannopoulos,您可以看到如下内容:

热门段落

......方向,不确定.我们还没有解决,因为我们没有预料到,这个问题会在未经审理的案件发生时提出; 公园的某种程度的和平是否应该牺牲或捍卫那些使用这些东西的乐趣或兴趣的孩子.当出现未经审查的案件时,我们就会面临利害攸关的问题,然后通过在最能满足我们的方式中选择竞争利益来解决问题.在做什么...... 第86页

出现在1968年至2003年的15本书中

这将是适合"机械"法理学的世界.显然,这个世界不是我们的世界; 人类立法者无法了解未来可能带来的所有可能的情况组合.这种无法预测会带来相对不确定性的目标.当我们大胆地进行框架的一些通用规则(例如,没有车辆可能是考虑到公园的规则),在这种情况下所使用的语言修复任何事物必须满足必要的条件... 第86页

出现在1968年至2000年的8本书中

更多

它必须是密集的模式匹配过程.我只能想到n-gram模型,文本语料库,自动plagisrism检测.但是,有时n-gram是用于预测序列中的下一个项目的概率模型,并且手动创建文本语料库(据我所知).而且,在这个特殊情况下,流行的段落,可能会有很多单词.

我真的迷路了.如果我想创建这样的功能,我应该如何或在哪里开始?另外,在你的回复中包含哪些编程语言最适合这些东西:F#或任何其他功能性语言,PERL,Python,Java ......(我自己也成为了F#粉丝)

PS:有人可以包含标签自动抄袭检测,因为我不能

text-processing pattern-recognition corpus n-gram plagiarism-detection

1
推荐指数
1
解决办法
465
查看次数

C#组合线

嘿大家,这就是我发生的事情.我有两个文本文件.嗯我们可以调用一个A.txt和B.txt.

A.txt是一个包含一堆文件夹名称的配置文件,每个文件夹只有1个列表.

B.txt是包含文件夹名称和大小的目录列表.但是B包含一堆列表而不仅仅是一个条目.

我需要的是,如果B,包含A.取B中包含A的所有行并将其写为A | B | B | B ect ....

例如:

A.txt:
Apple
Orange
Pear XBSj
HEROE

B.txt:
Apple | 3123123
Apple | 3434
Orange | 99999999
Orange | 1234544
Pear | 11
Pear | 12
XBSJ | 43949
XBSJ | 43933

Result.txt:
Apple | 3123123 | 3434
Orange | 99999999 | 1234544
Pear | 11 | 12
XBSJ | 43949 | 43933

这就是我所拥有的,但它并没有真正做我需要的.

string[] combineconfig = File.ReadAllLines(@"C:\a.txt");
        foreach (string ccline in combineconfig)
        {
            string[] readlines = File.ReadAllLines(@"C:\b.txt"); …
Run Code Online (Sandbox Code Playgroud)

c# text-processing

1
推荐指数
2
解决办法
985
查看次数

在Java中解析"true"/"false"

什么是正确解析布尔字符串的实用方法?我的意思是

"true" => true
"false" => false
"foo" => error
Run Code Online (Sandbox Code Playgroud)

java.lang.Boolean中的解析方法很狡猾 - 它们不区分"false"和"foo".Java库(或Guava,或Commons Lang)中的其他任何东西都能正确完成吗?

是的它只是几行,我只是不写任何我不应该的行.:-)

java parsing text-processing

1
推荐指数
3
解决办法
3142
查看次数

UTF-8字符是否涵盖ISO8859-xx和windows-12xx的所有编码?

我试图从python中具有不同编码的一堆文档中编写一个通用文档索引器.我想知道是否可以用utf-8读取我的所有文件(用utf-8,ISO8859-xx和windows-12xx编码)而没有字符丢失?

阅读部分如下:

fin=codecs.open(doc_name, "r","utf-8");

doc_content=fin.read()
Run Code Online (Sandbox Code Playgroud)

python text-processing character-encoding

1
推荐指数
1
解决办法
315
查看次数

命令行perl:条件不再满足后退出

我想打印文件的所有标题行:

perl -wnl -e "/^#/ and print" file.vcf
Run Code Online (Sandbox Code Playgroud)

这有效 - 但是,我想在完成标题后退出.

怎么了?

perl -wnl -e "/^#/ and print else exit" file.vcf
Run Code Online (Sandbox Code Playgroud)

perl command-line text-processing

1
推荐指数
1
解决办法
96
查看次数

如何拆分数组中的句子

我有一个s存储很长句子的字符串,我想将内容复制s到一个数组中C,每个单元格都存储一个句子.以下是我的代码,它没有给我任何输出,但是单元格的维度:

while(i<6)
  C(i)=s;
  end
Run Code Online (Sandbox Code Playgroud)

这是我打印时输出的方式C:

C=
[1x76 char]
Run Code Online (Sandbox Code Playgroud)

有人能帮帮我吗.

arrays string matlab text-processing text-parsing

1
推荐指数
1
解决办法
80
查看次数

更改文本文件的格式

我有一个文件,其中包含多行标签分隔数据,格式如下:

1 1 2 2
3 3 4 4
5 5 6 6
...
Run Code Online (Sandbox Code Playgroud)

我想将格式更改为:

1 1
2 2

3 3
4 4

5 5
6 6
Run Code Online (Sandbox Code Playgroud)

有没有太复杂的方法来做到这一点?我没有任何使用awk,sed等的经验.谢谢

unix linux bash awk text-processing

1
推荐指数
2
解决办法
126
查看次数

从文本文件shell脚本中删除"空"行

我有一组输出文件,其中一些如下:

133 0.00295 nurse merit respect muslim 
134 0.00292 high dangerous reassure full 
135 0.00048 
136 0.0039  experience darren  
137 0.00097 _ _param_ui_control_scripts_save _param_pattern_value 
138 0.00292 find director
Run Code Online (Sandbox Code Playgroud)

我想得到以下文件:

133 0.00295 nurse merit respect muslim 
134 0.00292 high dangerous reassure full 
136 0.0039  experience darren  
137 0.00097 _ _param_ui_control_scripts_save _param_pattern_value 
138 0.00292 find director
Run Code Online (Sandbox Code Playgroud)

如果在第二列之后没有任何内容,只想删除该特定行.我怎么能这样做我是shell脚本的新手?

可能是对这个命令的修改? sed '/^$/d'

linux shell text-processing blank-line

1
推荐指数
1
解决办法
94
查看次数

如何在Python中对列表中的单词进行编码

我有一个字典,其中我将每个单词作为键和相应的整数值,例如:

 {'me': 41, 'are': 21, 'the': 0}
Run Code Online (Sandbox Code Playgroud)

我有一个数据框,其中包含一列已经标记化的单词列表,例如:

['I', 'liked', 'the', 'color', 'of', 'this', 'top']
['Just', 'grabbed', 'this', 'today', 'great', 'find']
Run Code Online (Sandbox Code Playgroud)

如何将这些单词中的每个单词编码为字典中的相应值.例如:

[56, 78, 5, 1197, 556, 991, 40] 
Run Code Online (Sandbox Code Playgroud)

python encoding text-processing dictionary dataframe

1
推荐指数
1
解决办法
166
查看次数

替换两个特定字符串之间的行 - 在cmd中等效的sed

我想更换两个字符串之间的线条[REPORT][TAGS].文件看起来像这样

Many lines 
many lines
they remain the same

[REPORT]

some text
some more text412

[TAGS]

text that I Want
to stay the same!!!
Run Code Online (Sandbox Code Playgroud)

sed:

sed -e '/[REPORT]/,/[TAGS]/c\[REPORT]\nmy text goes here\nAnd a new line down here\n[TAGS]' minput.txt > moutput.txt
Run Code Online (Sandbox Code Playgroud)

这给了我这个:

Many lines 
many lines
they remain the same

[REPORT]
my text goes here
And a new line down here
[TAGS]

text that I Want
to stay the same!!!
Run Code Online (Sandbox Code Playgroud)

当我这样做并在记事本中打开输出文件时,它不会显示新行.我认为这是因为格式化问题,简单Dos2Unix应该解决问题.

但正因为如此,主要是因为并非所有同事都可以访问 …

powershell text-processing cygwin cmd

1
推荐指数
1
解决办法
177
查看次数