无法从包含非常规内容的网页中获取某些字段

MIT*_*THU 0 python web-scraping python-3.x python-requests

当我尝试使用请求从网页中抓取某些字段时,我遇到了如下所示的外部内容,我找不到任何从中获取数据的想法。以下是我收到的回复的一小部分:

    I: Qc[
    j~O~_
]S6gMWNougj~Ougp_{
    hr[
        ogL>i
    ]OqNotnYr=nQHOGirKugLKngL[
        Kh
    ][
        uiMpnTnNpSYR: QIZSXNxNpOq_MRnTnN5Nn|nV[
            _SNotnOIh~Rn|9 RIFnQHOuh6Smg\[
                S^\qxf\: sY8OKjL[
                    yhMVnTnO__
                ]RnQHOYhZ_5NotnRn|
            }TYFnQHOIf
        ]W: NotnVZSZY59nQHOuh5
    }uh8Wq_J_{
        hqSmgLZnTnOTg~NxNpOmiLmNotnRnNxNp>8 gr[
            ~NotnW5>
        ]XZ: MQJ6OV5mGWZ|lXnNxNrqz[
            LK9WL[
                xf\:
            }i\[
Run Code Online (Sandbox Code Playgroud)

我想知道是否有任何方法可以将内容转换为常规 html 或 json。

这是这些元素中应该包含的一些地址:

Franklin St
Great Rd
Nonset Path
Run Code Online (Sandbox Code Playgroud)

tre*_*esf 6

数据似乎遵循某种形式的编码。根据您的评论,这方面的证据。

  • 某些文本,例如>QMxnf\:Lg8Oq^7}{h8[~_XN;Np:{Nn|nV]_mf\}m^r}出现32次
  • 数据(大部分)仅限于 ASCII 字符,这表明它使用某种形式的编码膨胀,例如 Base64、Base85 等。
  • 通过流行的解码器运行数据失败,表明它可能被加密,但自动密码检测尚无定论。
  • 如果数据经过加密和编码,则需要反复试验(能够发现常见的可识别编码模式)
  • 数据可能被加密
  • 数据可能使用专有的混淆

查看PropertyRadar,他们似乎使用了“Zapier”的集成服务,但是有关数据格式/交换的公共信息并不容易获得。

最后,查看他们的产品页面,我可以看到某些级别的信息只能通过更高的每月订阅计划才能访问。如果是这种情况,您发布的数据可能会被故意混淆,以防止您尝试执行的操作发生。

无论如何,解析这些数据的最佳方法是首先联系网站的技术支持并询问他们如何进行。如果它们没有帮助,获取(和共享)一些有关其v1API 的技术文档将是一个好的开始,但是这样做(共享)时要小心,因为这可能会受到禁止公开发布的限制。如果可以通过更高层访问此数据,则您尝试对其服务进行逆向工程可能已经违反了与他们之间的协议。