我的任务是在文本中搜索陈词滥调和常用短语.这些短语类似于你可能在"命运之轮"上的短语拼图中看到的短语.这里有一些例子:
但是我找不到一个短语列表.有人知道这样的清单吗?
说真的,即使是所有Wheel of Fortune解决方案的清单也足够了.
我寻找一个可以在命令行上运行的工具,如下所示:
tablescrape 'http://someURL.foo.com' [n]
Run Code Online (Sandbox Code Playgroud)
如果n未指定且页面上有多个HTML表,则应在编号列表中对它们进行汇总(标题行,总行数).如果n指定了或者只有一个表,它应该解析表并将其作为CSV或TSV吐出到stdout.
潜在的附加功能:
你会用什么来拼凑这样的东西?Perl模块HTML :: TableExtract可能是一个很好的起点,甚至可以处理嵌套表的情况.这也可能是一个非常简短的Python脚本与BeautifulSoup.将YQL是一个很好的起点?或者,理想情况下,你有类似的东西写一个指针吗?(我肯定不是第一个需要这个的人.)
相关问题: