我想使用 Python 从公共 Instagram 帐户中抓取所有帖子,以进行我在大学进行的一项研究。然而,我开始感到沮丧,因为我无法从 Instagram 中提取超过 12 条帖子。
Selenium 完成了滚动页面的工作,并且我已经得到 beautifulsoup 来以适当的方式解析我想要的数据,尽管仅适用于前十二篇文章。到目前为止,我已经尝试了几种不同的方法,但开始感到陷入困境。我在这里查看了几个教程和线程,例如:
如何用 python 抓取完整的 Instagram 页面?
使用 Selenium Python 进行网页抓取 [Twitter + Instagram]
https://michaeljsanders.com/2017/05/12/scrapin-and-scrollin.html
https://edmundmartin.com/scraping-instagram-with-python/
感谢所有人和任何回应!
最好的问候,卡勒。
我试过的代码。示例1:
from bs4 import BeautifulSoup
import ssl
import json
import time
from selenium import webdriver
from datetime import datetime
class Insta_Image_Links_Scraper:
def getlinks(self, user, url):
print('[+] Downloading:\n')
c = webdriver.Chrome()
c.get("https://www.instagram.com/frank_the_carden/")
lenOfPage = c.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
match=False
while(match==False):
lastCount = lenOfPage
time.sleep(2)
lenOfPage = c.execute_script("window.scrollTo(0, document.body.scrollHeight);var lenOfPage=document.body.scrollHeight;return lenOfPage;")
if lastCount==lenOfPage: …Run Code Online (Sandbox Code Playgroud)