相关疑难解决方法(0)

我在哪里可以找到英语短语列表?

我的任务是在文本中搜索陈词滥调和常用短语.这些短语类似于你可能在"命运之轮"上的短语拼图中看到的短语.这里有一些例子:

  • 来得便当去得快
  • 难以置信
  • 获胜并非一切

但是我找不到一个短语列表.有人知道这样的清单吗?

说真的,即使是所有Wheel of Fortune解决方案的清单也足够了.

nlp linguistics

12
推荐指数
3
解决办法
3641
查看次数

将HTML表从给定的URL刮到CSV

我寻找一个可以在命令行上运行的工具,如下所示:

tablescrape 'http://someURL.foo.com' [n]
Run Code Online (Sandbox Code Playgroud)

如果n未指定且页面上有多个HTML表,则应在编号列表中对它们进行汇总(标题行,总行数).如果n指定了或者只有一个表,它应该解析表并将其作为CSV或TSV吐出到stdout.

潜在的附加功能:

  • 真的很花哨你可以在一个表中解析一个表,但是为了我的目的 - 从维基百科页面中获取数据等 - 这太过分了.
  • asciify任何unicode的选项.
  • 应用任意正则表达式替换来修复已解析表中的奇怪现象的选项.

你会用什么来拼凑这样的东西?Perl模块HTML :: TableExtract可能是一个很好的起点,甚至可以处理嵌套表的情况.这也可能是一个非常简短的Python脚本与BeautifulSoup.将YQL是一个很好的起点?或者,理想情况下,你有类似的东西写一个指针吗?(我肯定不是第一个需要这个的人.)

相关问题:

html language-agnostic csv parsing screen-scraping

4
推荐指数
1
解决办法
6494
查看次数