使用Python从Wikipedia页面中提取主要文章文本

Pao*_*olo 5 python parsing wikipedia extract

我一直在搜索如何提取维基百科文章的主要文本,没有所有的链接和参考.我尝试过wikitools,mwlib,BeautifulSoup等等.但我还没有真正成功.

有没有简单快捷的方法来获取明文(实际文章),并将其放在Python变量中?

解决方案:奥米德拉哈解决了它:)

Omi*_*aha 19

您可以使用此,即Wikipedia API的python包装器,

是一个快速入门.

首先安装它:

pip install wikipedia
Run Code Online (Sandbox Code Playgroud)

例:

import wikipedia
p = wikipedia.page("Python programming language")
print(p.url)
print(p.title)
content = p.content # Content of page.
Run Code Online (Sandbox Code Playgroud)

输出:

http://en.wikipedia.org/wiki/Python_(programming_language)
Python (programming language)
Run Code Online (Sandbox Code Playgroud)