相关疑难解决方法(0)

我在哪里可以找到英语短语列表？

我的任务是在文本中搜索陈词滥调和常用短语.这些短语类似于你可能在"命运之轮"上的短语拼图中看到的短语.这里有一些例子:

来得便当去得快
难以置信
获胜并非一切

但是我找不到一个短语列表.有人知道这样的清单吗？

说真的,即使是所有Wheel of Fortune解决方案的清单也足够了.

nlp linguistics

Mar*_*ams

2010 04-24

12
推荐指数

3
解决办法

3641
查看次数

将HTML表从给定的URL刮到CSV

我寻找一个可以在命令行上运行的工具,如下所示:

tablescrape 'http://someURL.foo.com' [n]

Run Code Online (Sandbox Code Playgroud)

如果n未指定且页面上有多个HTML表,则应在编号列表中对它们进行汇总(标题行,总行数).如果n指定了或者只有一个表,它应该解析表并将其作为CSV或TSV吐出到stdout.

潜在的附加功能:

真的很花哨你可以在一个表中解析一个表,但是为了我的目的 - 从维基百科页面中获取数据等 - 这太过分了.
asciify任何unicode的选项.
应用任意正则表达式替换来修复已解析表中的奇怪现象的选项.

你会用什么来拼凑这样的东西？Perl模块HTML :: TableExtract可能是一个很好的起点,甚至可以处理嵌套表的情况.这也可能是一个非常简短的Python脚本与BeautifulSoup.将YQL是一个很好的起点？或者,理想情况下,你有类似的东西写一个指针吗？(我肯定不是第一个需要这个的人.)

标签统计

csv ×1

html ×1

language-agnostic ×1

linguistics ×1

nlp ×1

parsing ×1

screen-scraping ×1

我在哪里可以找到英语短语列表？

将HTML表从给定的URL刮到CSV

标签 统计

标签统计