小编use*_*765的帖子

如何从Instagram网页浏览器网页抓取粉丝?

谁能告诉我如何访问底层URL以查看给定用户的Instagram粉丝?我可以使用Instagram API执行此操作,但鉴于审批流程有待更改,我决定切换到抓取.

Instagram网络浏览器允许您查看任何给定公共用户的关注者列表 - 例如,查看Instagram的关注者,访问" https://www.instagram.com/instagram ",然后单击关注者URL以打开通过查看者分页的窗口(注意:您必须登录到您的帐户才能查看此内容).

我注意到,当弹出此窗口时,URL会更改为" https://www.instagram.com/instagram/followers ",但我似乎无法查看此URL的基础页面源.

由于它出现在我的浏览器窗口中,我认为我将能够刮擦.但是我必须使用像Selenium这样的软件包吗?有谁知道底层URL是什么,所以我不必使用Selenium?

例如,我可以通过访问"instagram.com/instagram/media/"直接访问基础Feed数据,我可以从中搜索和分页所有迭代.我想对关注者列表做类似的事情,并直接访问这些数据(而不是使用Selenium).

python selenium web-scraping instagram-api

5
推荐指数
2
解决办法
2万
查看次数

使用正则表达式进行非贪婪(惰性)匹配?

如何使用正则表达式在 Stata 中实现非贪婪匹配?或者Stata有这个能力吗?

我想提取主题标签“#”和句点“.”之间出现的所有文本。

示例代码:

clear
set obs 3
generate var1="anything#aaabbbccc.dddeee.fff" in 1
replace var1="anything#aaabbbccc.dddeee" in 2
replace var1="anything#aaabbbccc." in 3
generate var2=regexs(1) if regexm(var1,"#(.*)\.")
list
Run Code Online (Sandbox Code Playgroud)

但在 Stata (v.13.1) 中,我似乎无法使用非贪婪字符#(.*?)\.。因此,上面的代码给出了:

+--------------------------------------------------+
|                          var1               var2 |
|--------------------------------------------------|
| anything#aaabbbccc.dddeee.fff   aaabbbccc.dddeee |
|     anything#aaabbbccc.dddeee          aaabbbccc |
|           anything#aaabbbccc.          aaabbbccc |
+--------------------------------------------------+
Run Code Online (Sandbox Code Playgroud)

但我想要的是这样的:

+--------------------------------------------------+
|                          var1               var2 |
|--------------------------------------------------|
| anything#aaabbbccc.dddeee.fff          aaabbbccc |
|     anything#aaabbbccc.dddeee          aaabbbccc |
|           anything#aaabbbccc.          aaabbbccc |
+--------------------------------------------------+
Run Code Online (Sandbox Code Playgroud)

regex lazy-evaluation greedy stata regex-greedy

4
推荐指数
1
解决办法
659
查看次数