小编Red*_*Red的帖子

仅使用内置库在 Python 中制作基本的网络抓取工具 - Python

学习Python,我试图制作一个没有任何第三方库的网络爬虫,这样这个过程对我来说就不会被简化,而且我知道我在做什么。我浏览了一些在线资源,但所有这些资源都让我对某些事情感到困惑。

html 看起来像这样,

<html>
<head>...</head>
<body>
    *lots of other <div> tags*
<div class = "want" style="font-family:verdana;font-size:12px;letter-spacing:normal"">
<form class ="subform">...</form>
<div class = "subdiv1" >...</div>
<div class = "subdiv2" >...</div>
    *lots of other <div> tags*
</body>
</html>
Run Code Online (Sandbox Code Playgroud)

我希望抓取工具提取<div class = "want"...>*content*</div>并将其保存到 html 文件中。

我对如何解决这个问题有一个非常基本的想法。

import urllib
from urllib import request
#import re
#from html.parser import HTMLParser

response = urllib.request.urlopen("http://website.com")
html = response.read()

#Some how extract that wanted data

f = open('page.html', 'w')
f.write(data)
f.close()
Run Code Online (Sandbox Code Playgroud)

python extract web-scraping

5
推荐指数
1
解决办法
4434
查看次数

标签 统计

extract ×1

python ×1

web-scraping ×1