小编use*_*106的帖子

无法从网站上提取HTML

我正在从网站上提取HTML,通过发送标题让网站认为我只是一个浏览网站的用户,如下所示:

def page(goo):
    import fileinput
    import sys, heapq, array, urllib
    import BeautifulSoup
    from BeautifulSoup import BeautifulSoup
    import re
    from urllib import FancyURLopener
    class MyOpener(FancyURLopener):
        version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
    myopener = MyOpener()
    filehandle = myopener.open(goo)
    return filehandle.read()
page=page(WebSite)
Run Code Online (Sandbox Code Playgroud)

这适用于大多数网站,甚至谷歌和维基百科,但不适用于Tmart.com.不知何故,Tmart可以看到它不是一个Web浏览器,并返回错误.我怎样才能解决这个问题?

html python urllib web

3
推荐指数
1
解决办法
188
查看次数

标签 统计

html ×1

python ×1

urllib ×1

web ×1