相关疑难解决方法(0)

导入错误:没有模块名称urllib2

这是我的代码:

import urllib2.request

response = urllib2.urlopen("http://www.google.com")
html = response.read()
print(html)

Run Code Online (Sandbox Code Playgroud)

有帮助吗？

python urllib2 python-3.x

作者

2018 01-17

433
推荐指数

10
解决办法

67万
查看次数

HTML抓取的选项？

我正在考虑使用Beautiful Soup,一个用于HTML抓取的Python包.我应该看看还有其他HTML抓包吗？Python不是必需的,我实际上也有兴趣了解其他语言.

到目前为止的故事:

蟒蛇
- 美丽的汤
- LXML
- HTQL
- Scrapy
- 机械化
红宝石
.净
- Html敏捷包
- 华廷
Perl的
- WWW ::机械化
- 网页式铲运机
Java的
JavaScript的
- 请求
- cheerio
- artoo
- 节点骑手
- phantomjs
PHP
大多数人
- 屏幕刮板

html html-parsing html-content-extraction web-scraping

Mar*_*son

2018 08-31

401
推荐指数

21
解决办法

18万
查看次数

从维基百科文章(Python)中提取第一段

如何使用Python从Wikipedia文章中提取第一段？

例如,阿尔伯特爱因斯坦,那将是:

阿尔伯特爱因斯坦(发音为/ælbərtaɪnstaɪn/;德语:[albɐtaɪnʃtaɪn](听); 1879年3月14日 - 1955年4月18日)是理论物理学家,哲学家和作家,被广泛认为是最具影响力和标志性的科学家和知识分子之一有史以来作为德国 - 瑞士诺贝尔奖获得者,爱因斯坦经常被视为现代物理学之父.[2] 他获得了1921年诺贝尔物理学奖,"因为他为理论物理学服务,特别是他发现了光电效应定律".[3]

python wikipedia

Alo*_*kin

2013 09-20

38
推荐指数

5
解决办法

4万
查看次数

谷歌搜索使用python脚本

谁能帮助我如何编写一个搜索谷歌的python脚本并打印出最佳结果的链接.

python

sud*_*udh

lucky-day

32
推荐指数

2
解决办法

8万
查看次数

使用Python进行屏幕抓取

Python是否有提供JavaScript支持的屏幕抓取库？

我一直在使用pycurl来处理简单的HTML请求,而Java的HtmlUnit则用于需要JavaScript支持的更复杂的请求.

理想情况下,我希望能够完成Python的所有工作,但我没有遇到任何允许我这样做的库.它们存在吗？

python screen-scraping pycurl htmlunit

Mar*_*rco

lucky-day

14
推荐指数

2
解决办法

9626
查看次数

从存储的.html页面中提取新闻文章内容

我正在从html文件中读取文本并进行一些分析.这些.html文件是新闻文章.

码:

 html = open(filepath,'r').read()
 raw = nltk.clean_html(html)  
 raw.unidecode(item.decode('utf8'))

Run Code Online (Sandbox Code Playgroud)

现在我只想要文章内容,而不是广告,标题等其他文本.我怎么能在python中相对准确地这样做？

我知道一些像Jsoup(java api)和bolier这样的工具,但我想在python中这样做.我可以找到一些使用bs4的技术,但仅限于一种类型的页面.我有来自众多来源的新闻页面.此外,还缺少任何示例代码示例.

我在python中寻找与http://www.psl.cs.columbia.edu/wp-content/uploads/2011/03/3463-WWWJ.pdf完全相同的内容.

编辑: 为了更好地理解,请写一个示例代码来提取以下链接的内容http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always -a-高癌症risk.html？SRC =我和REF =一般

python urllib2 bs4

Abh*_*tia

2017 07-16

13
推荐指数

2
解决办法

1万
查看次数

Python从互联网地址下载所有文件？

我想从互联网页面下载所有文件,实际上是所有图像文件.我发现'urllib'模块是我需要的.如果您知道文件名,似乎有一种下载文件的方法,但我不知道.

urllib.urlretrieve('http://www.example.com/page', 'myfile.jpg')

Run Code Online (Sandbox Code Playgroud)

是否有方法从页面下载所有文件,并可能返回一个列表？

python url http urllib

Bro*_*123

lucky-day

6
推荐指数

1
解决办法

7650
查看次数

什么是Perl或Python的站点抓取库的起点？

可能重复:
如何使用Perl屏幕刮擦？
使用Python进行Web抓取

这不是我的工作领域,所以原谅普遍缺乏知识.我正在寻找一个用于网站抓取的Python或Perl库(从各个页面上的网站/表格获取一些产品信息/更加用户友好的格式 - Excel - 两种语言都有令人满意的选项)并提供良好的文档.

任何人都可以提出有关该主题的建议或起点吗？谷歌搜索提供了几个有趣的比赛,但是我只是在短时间内不打算在错误的赛道上打猎,而是宁愿相信有这方面经验的人.

python perl screen-scraping

Roo*_*ook

2017 05-23

2
推荐指数

1
解决办法

789
查看次数

标签统计

python ×7

screen-scraping ×2

urllib2 ×2

bs4 ×1

html ×1

html-content-extraction ×1

html-parsing ×1

htmlunit ×1

http ×1

perl ×1

pycurl ×1

python-3.x ×1

url ×1

urllib ×1

web-scraping ×1

wikipedia ×1

标签 统计

标签统计