c1r*_*tiq 3 python nlp wikipedia
我需要设计一个程序,在整个维基百科文章集中找到一些四或五个单词短语(是的,我知道它的页面很多,而且我不需要回答我这样做是个白痴).
我以前没有编写过这样的东西,所以有两个问题我会非常感谢一些帮助:
首先,我将如何让程序遍历所有页面(即不是硬编码数百万页中的每一页.我已将所有文章下载到我的硬盘上,但我不知道我怎么能告诉程序迭代文件夹中的每一个) 编辑 - 我在我的硬盘上有所有维基百科文章
页面的快照中包含图片和表格.我如何仅提取文章的正文?
非常感谢您对这两个问题的帮助!