我正在尝试使用R中的tm包来执行一些文本分析.我绑了以下内容:
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)?lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Run Code Online (Sandbox Code Playgroud)
问题是某些字符无效.我想从R中或在导入文件进行处理之前从分析中排除无效字符.
我尝试使用iconv将所有文件转换为utf-8并排除任何无法转换为的内容,如下所示:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
Run Code Online (Sandbox Code Playgroud)
正如在此指出的那样使用iconv将latin-1文件批量转换为utf-8
但我仍然得到同样的错误.
我很感激任何帮助.
当我向下滚动浏览器时,我想抓一个动态生成更多内容的网站.我在FireFox中看过一篇相关文章Auto-Scroll,但它没有回答我的问题.
是否可以滚动网页直到页面结束(Web服务器不再生成内容)或直到使用Watir Web驱动程序刷新一些内容?