谁能告诉我如何访问底层URL以查看给定用户的Instagram粉丝?我可以使用Instagram API执行此操作,但鉴于审批流程有待更改,我决定切换到抓取.
Instagram网络浏览器允许您查看任何给定公共用户的关注者列表 - 例如,查看Instagram的关注者,访问" https://www.instagram.com/instagram ",然后单击关注者URL以打开通过查看者分页的窗口(注意:您必须登录到您的帐户才能查看此内容).
我注意到,当弹出此窗口时,URL会更改为" https://www.instagram.com/instagram/followers ",但我似乎无法查看此URL的基础页面源.
由于它出现在我的浏览器窗口中,我认为我将能够刮擦.但是我必须使用像Selenium这样的软件包吗?有谁知道底层URL是什么,所以我不必使用Selenium?
例如,我可以通过访问"instagram.com/instagram/media/"直接访问基础Feed数据,我可以从中搜索和分页所有迭代.我想对关注者列表做类似的事情,并直接访问这些数据(而不是使用Selenium).
如何使用正则表达式在 Stata 中实现非贪婪匹配?或者Stata有这个能力吗?
我想提取主题标签“#”和句点“.”之间出现的所有文本。
示例代码:
clear
set obs 3
generate var1="anything#aaabbbccc.dddeee.fff" in 1
replace var1="anything#aaabbbccc.dddeee" in 2
replace var1="anything#aaabbbccc." in 3
generate var2=regexs(1) if regexm(var1,"#(.*)\.")
list
Run Code Online (Sandbox Code Playgroud)
但在 Stata (v.13.1) 中,我似乎无法使用非贪婪字符#(.*?)\.。因此,上面的代码给出了:
+--------------------------------------------------+
| var1 var2 |
|--------------------------------------------------|
| anything#aaabbbccc.dddeee.fff aaabbbccc.dddeee |
| anything#aaabbbccc.dddeee aaabbbccc |
| anything#aaabbbccc. aaabbbccc |
+--------------------------------------------------+
Run Code Online (Sandbox Code Playgroud)
但我想要的是这样的:
+--------------------------------------------------+
| var1 var2 |
|--------------------------------------------------|
| anything#aaabbbccc.dddeee.fff aaabbbccc |
| anything#aaabbbccc.dddeee aaabbbccc |
| anything#aaabbbccc. aaabbbccc |
+--------------------------------------------------+
Run Code Online (Sandbox Code Playgroud)