Rom*_*Vaz 1 web-crawler scrapy web-scraping
我一直在尝试使用Scrapy进行Web抓取,并且对从Whatsapp的所有聊天中检索所有文本消息作为机器学习项目的训练数据感兴趣。我知道有些网站阻止网络爬虫/抓取工具,所以我想知道是否可以使用Scrapy获取这些消息,如果不能,我可以使用哪些替代方法?我了解我可以为每个聊天单击“电子邮件聊天”选项,但是如果我想不仅从自己的聊天中,而且从愿意让其他人聊天的人中获取大量数据,这可能不可行。我在项目中使用他们的聊天记录。
我认为WhatsApp不会阻止爬虫和刮板。您只能访问您的web.whatsapp.com。这是您的计谋,您将如何处理您的消息。当我编写代码以读取/写入WhatsApp消息时,我使用了Selenium WebDriver,它可以完全自动执行任何浏览器操作。对于WhatsUpp,它的工作太稳定了。这不是完全自动化的,当然是QR代码。如果按F12并转到Web浏览器中的“网络”选项卡,您将注意到XHR数据包中带有消息。在滚动或打开人员期间加载新消息时,可以看到它。看起来像字节数据。因此,我认为您不能为此编写Scrapy代码。