我正在使用linkchecker抓取英国政府网站,映射超链接之间的关系,并输出到 GML 文件。
我不想包含图像的 URL,例如任何包含 jpeg 或 png 文件格式引用的 URL(例如“www.gov.uk/somefile.jpeg”)。
我已经尝试使用--ignore-url命令行参数和各种正则表达式几个小时来实现此目的。这是我放弃之前的最后一次尝试:
linkchecker --ignore-url='(png|jpg|jpeg|gif|tiff|bmp|svg|js)$' -r1 --verbose --no-warnings -ogml/utf_8 --file-output=gml/utf_8/www.gov.uk_RECURSION_1_LEVEL_NO_IMAGES.gml https://www.gov.uk
Run Code Online (Sandbox Code Playgroud)
有人可以建议这是否可能吗?如果可以,请提出解决方案?