这是我的代码:
import urllib2.request
response = urllib2.urlopen("http://www.google.com")
html = response.read()
print(html)
Run Code Online (Sandbox Code Playgroud)
有帮助吗?
我正在考虑使用Beautiful Soup,一个用于HTML抓取的Python包.我应该看看还有其他HTML抓包吗?Python不是必需的,我实际上也有兴趣了解其他语言.
到目前为止的故事:
如何使用Python从Wikipedia文章中提取第一段?
例如,阿尔伯特爱因斯坦,那将是:
阿尔伯特爱因斯坦(发音为/ælbərtaɪnstaɪn/;德语:[albɐtaɪnʃtaɪn](听); 1879年3月14日 - 1955年4月18日)是理论物理学家,哲学家和作家,被广泛认为是最具影响力和标志性的科学家和知识分子之一有史以来 作为德国 - 瑞士诺贝尔奖获得者,爱因斯坦经常被视为现代物理学之父.[2] 他获得了1921年诺贝尔物理学奖,"因为他为理论物理学服务,特别是他发现了光电效应定律".[3]
Python是否有提供JavaScript支持的屏幕抓取库?
我一直在使用pycurl来处理简单的HTML请求,而Java的HtmlUnit则用于需要JavaScript支持的更复杂的请求.
理想情况下,我希望能够完成Python的所有工作,但我没有遇到任何允许我这样做的库.它们存在吗?
我正在从html文件中读取文本并进行一些分析.这些.html文件是新闻文章.
码:
html = open(filepath,'r').read()
raw = nltk.clean_html(html)
raw.unidecode(item.decode('utf8'))
Run Code Online (Sandbox Code Playgroud)
现在我只想要文章内容,而不是广告,标题等其他文本.我怎么能在python中相对准确地这样做?
我知道一些像Jsoup(java api)和bolier这样的工具,但我想在python中这样做.我可以找到一些使用bs4的技术,但仅限于一种类型的页面.我有来自众多来源的新闻页面.此外,还缺少任何示例代码示例.
我在python中寻找与http://www.psl.cs.columbia.edu/wp-content/uploads/2011/03/3463-WWWJ.pdf完全相同的内容.
编辑: 为了更好地理解,请写一个示例代码来提取以下链接的内容http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always -a-高癌症risk.html?SRC =我和REF =一般
我想从互联网页面下载所有文件,实际上是所有图像文件.我发现'urllib'模块是我需要的.如果您知道文件名,似乎有一种下载文件的方法,但我不知道.
urllib.urlretrieve('http://www.example.com/page', 'myfile.jpg')
Run Code Online (Sandbox Code Playgroud)
是否有方法从页面下载所有文件,并可能返回一个列表?
可能重复:
如何使用Perl屏幕刮擦?
使用Python进行Web抓取
这不是我的工作领域,所以原谅普遍缺乏知识.我正在寻找一个用于网站抓取的Python或Perl库(从各个页面上的网站/表格获取一些产品信息/更加用户友好的格式 - Excel - 两种语言都有令人满意的选项)并提供良好的文档.
任何人都可以提出有关该主题的建议或起点吗?谷歌搜索提供了几个有趣的比赛,但是我只是在短时间内不打算在错误的赛道上打猎,而是宁愿相信有这方面经验的人.
python ×7
urllib2 ×2
bs4 ×1
html ×1
html-parsing ×1
htmlunit ×1
http ×1
perl ×1
pycurl ×1
python-3.x ×1
url ×1
urllib ×1
web-scraping ×1
wikipedia ×1