标签: linkchecker

如何使用 linkchecker 忽略包含图像格式的 URL

我正在使用linkchecker抓取英国政府网站,映射超链接之间的关系,并输出到 GML 文件。

我不想包含图像的 URL,例如任何包含 jpeg 或 png 文件格式引用的 URL(例如“www.gov.uk/somefile.jpeg”)。

我已经尝试使用--ignore-url命令行参数和各种正则表达式几个小时来实现此目的。这是我放弃之前的最后一次尝试:

linkchecker --ignore-url='(png|jpg|jpeg|gif|tiff|bmp|svg|js)$' -r1 --verbose --no-warnings -ogml/utf_8 --file-output=gml/utf_8/www.gov.uk_RECURSION_1_LEVEL_NO_IMAGES.gml https://www.gov.uk
Run Code Online (Sandbox Code Playgroud)

有人可以建议这是否可能吗?如果可以,请提出解决方案?

python linkchecker

3
推荐指数
1
解决办法
1494
查看次数

标签 统计

linkchecker ×1

python ×1