相关疑难解决方法(0)

Code Golf:从文本中快速构建关键字列表,包括实例数

我已经用PHP为自己设计了这个解决方案,但我很好奇它是如何以不同的方式完成的 - 甚至更好.我最感兴趣的两种语言是PHP和Javascript,但我很想知道今天用其他主要语言(主要是C#,Java等)可以多快地完成这项工作.

  1. 仅返回出现次数大于X的单词
  2. 仅返回长度大于Y的单词
  3. 忽略像"和,是,等等"这样的常用术语
  4. 在处理之前随意剥去标点符号(即"约翰"成为"约翰")
  5. 返回集合/数组中的结果

额外信用

  1. 将引用的陈述保持在一起,(即"它们'太好了,显然不是真的'")
    实际的陈述是"太好不可能"

额外信用额度

  1. 您的脚本可以根据它们在一起找到的频率来确定应该保存在一起的单词吗?这是在事先不知道单词的情况下完成的.例:
    *"果蝇在医学研究方面是一件好事.过去对果蝇进行了大量的研究,并取得了许多突破.未来,果蝇将继续研究,但是我们的方法可能会改变."*
    显然,这里的词是"果蝇",这对我们来说很容易找到.你的search'n'scrape脚本也可以确定吗?

源文:http://sampsonresume.com/labs/c.txt

答案格式

  1. 除了操作持续多长时间之外,看到代码,输出的结果会很棒.

language-agnostic code-golf text-parsing rosetta-stone

12
推荐指数
2
解决办法
1270
查看次数