小编use*_*508的帖子

如何从php中的用户代理字符串中检测浏览器欺骗和机器人

到目前为止,我能够通过将这些字符串与已知的用户代理进行匹配来检测用户代理字符串列表中的机器人,但我想知道使用php有什么其他方法可以做到这一点,因为我正在使用此方法检索比预期更少的机器人.

我还想了解如何检测浏览器或机器人是否使用用户代理字符串欺骗另一个浏览器.

任何建议表示赞赏.

编辑:这必须使用包含以下行的日志文件来完成:

129.173.129.168 - - [11/Oct/2011:00:00:05 -0300]"GET /cams/uni_ave2.jpg?time=1318302291289 HTTP/1.1"200 20240"http://faculty.dentistry.dal.ca /loanertracker/webcam.html""Mozilla/5.0(Macintosh; U; PPC Mac OS X 10.4; en-US; rv:1.9.2.23)Gecko/20110920 Firefox/3.6.23"

这意味着除了访问时间之外,我无法检查用户行为.

php user-agent bots spoof

9
推荐指数
3
解决办法
1万
查看次数

使用R进行文本挖掘Reuters-21578

我正在尝试使用众所周知的Reuters-21578数据集进行一些工作,并且在将sgm文件加载到我的语料库时遇到了一些麻烦.

现在我正在使用该命令

require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578), 
    readerControl = list(reader = readReut21578XML))
Run Code Online (Sandbox Code Playgroud)

试图将所有文件都包含在我的语料库中,但这会给我以下错误:

Error in DirSource(reut21578) : empty directory
Run Code Online (Sandbox Code Playgroud)

知道我可能会出错吗?

r corpus reuters tm

0
推荐指数
1
解决办法
4289
查看次数

标签 统计

bots ×1

corpus ×1

php ×1

r ×1

reuters ×1

spoof ×1

tm ×1

user-agent ×1