到目前为止,我能够通过将这些字符串与已知的用户代理进行匹配来检测用户代理字符串列表中的机器人,但我想知道使用php有什么其他方法可以做到这一点,因为我正在使用此方法检索比预期更少的机器人.
我还想了解如何检测浏览器或机器人是否使用用户代理字符串欺骗另一个浏览器.
任何建议表示赞赏.
编辑:这必须使用包含以下行的日志文件来完成:
129.173.129.168 - - [11/Oct/2011:00:00:05 -0300]"GET /cams/uni_ave2.jpg?time=1318302291289 HTTP/1.1"200 20240"http://faculty.dentistry.dal.ca /loanertracker/webcam.html""Mozilla/5.0(Macintosh; U; PPC Mac OS X 10.4; en-US; rv:1.9.2.23)Gecko/20110920 Firefox/3.6.23"
这意味着除了访问时间之外,我无法检查用户行为.
我正在尝试使用众所周知的Reuters-21578数据集进行一些工作,并且在将sgm文件加载到我的语料库时遇到了一些麻烦.
现在我正在使用该命令
require(tm)
reut21578 <- system.file("reuters21578", package = "tm")
reuters <-Corpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XML))
Run Code Online (Sandbox Code Playgroud)
试图将所有文件都包含在我的语料库中,但这会给我以下错误:
Error in DirSource(reut21578) : empty directory
Run Code Online (Sandbox Code Playgroud)
知道我可能会出错吗?