小编MAB*_*MAB的帖子

常见爬取——获取WARC文件

我想使用普通爬网检索网页，但我迷路了。

我想获取 www.example.com 的 warc 文件。我看到此链接 ( http://index.commoncrawl.org/CC-MAIN-2017-34-index?url=https%3A%2F%2Fwww.example.com&output=json ) 生成以下 json。

{"urlkey": "com,example)/", "timestamp": "20170820000102", "mime": "text/html", "digest": "B2LTWWPUOYAH7UIPQ7ZUPQ4VMBSVC36A", "filename": "crawl-data/CC- MAIN-2017-34/segments/1502886105955.66/robotstxt/CC-MAIN-20170819235943-20170820015943-00613.warc.gz", "mime-detected", "status", "status", "html" : "1109728", "length": "1166", "url": " http://www.example.com "}

有人可以指出我如何使用这些 json 元素来检索 HTML 的正确方向。

感谢您帮助菜鸟！

common-crawl

MAB*_*MAB

lucky-day

2
推荐指数

1
解决办法

782
查看次数

标签统计

common-crawl ×1

常见爬取——获取WARC文件

标签 统计

小编MAB_MAB的帖子

标签统计