标签: text-processing

Google图书的热门文章功能是如何开发的？

我很好奇,如果有人理解,知道或可以指向我关于谷歌如何创建他们的流行通道块功能的综合文献或源代码.但是,如果您知道任何其他可以执行相同操作的应用程序,请发布您的答案.

如果您不知道我在写什么,这里有一个热门通道示例的链接.当您查看" 信息技术应用程序的法律决策过程建模 "一书的概述时......通过Georgios N. Yannopoulos,您可以看到如下内容:

热门段落

......方向,不确定.我们还没有解决,因为我们没有预料到,这个问题会在未经审理的案件发生时提出; 公园的某种程度的和平是否应该牺牲或捍卫那些使用这些东西的乐趣或兴趣的孩子.当出现未经审查的案件时,我们就会面临利害攸关的问题,然后通过在最能满足我们的方式中选择竞争利益来解决问题.在做什么...... 第86页

出现在1968年至2003年的15本书中

这将是适合"机械"法理学的世界.显然,这个世界不是我们的世界; 人类立法者无法了解未来可能带来的所有可能的情况组合.这种无法预测会带来相对不确定性的目标.当我们大胆地进行框架的一些通用规则(例如,没有车辆可能是考虑到公园的规则),在这种情况下所使用的语言修复任何事物必须满足必要的条件... 第86页

出现在1968年至2000年的8本书中

更多

它必须是密集的模式匹配过程.我只能想到n-gram模型,文本语料库,自动plagisrism检测.但是,有时n-gram是用于预测序列中的下一个项目的概率模型,并且手动创建文本语料库(据我所知).而且,在这个特殊情况下,流行的段落,可能会有很多单词.

我真的迷路了.如果我想创建这样的功能,我应该如何或在哪里开始？另外,在你的回复中包含哪些编程语言最适合这些东西:F#或任何其他功能性语言,PERL,Python,Java ......(我自己也成为了F#粉丝)

PS:有人可以包含标签自动抄袭检测,因为我不能

text-processing pattern-recognition corpus n-gram plagiarism-detection

dde*_*dde

2009 07-21

1
推荐指数

1
解决办法

465
查看次数

C#组合线

嘿大家,这就是我发生的事情.我有两个文本文件.嗯我们可以调用一个A.txt和B.txt.

A.txt是一个包含一堆文件夹名称的配置文件,每个文件夹只有1个列表.

B.txt是包含文件夹名称和大小的目录列表.但是B包含一堆列表而不仅仅是一个条目.

我需要的是,如果B,包含A.取B中包含A的所有行并将其写为A | B | B | B ect ....

例如:

A.txt:
Apple
Orange
Pear XBSj
HEROE

Result.txt:
Apple | 3123123 | 3434
Orange | 99999999 | 1234544
Pear | 11 | 12
XBSJ | 43949 | 43933

这就是我所拥有的,但它并没有真正做我需要的.

string[] combineconfig = File.ReadAllLines(@"C:\a.txt");
        foreach (string ccline in combineconfig)
        {
            string[] readlines = File.ReadAllLines(@"C:\b.txt"); …

标签 统计

标签统计