小编mai*_*ini的帖子

'utf8towcs'中的r tm包无效输入

我正在尝试使用R中的tm包来执行一些文本分析.我绑了以下内容:

require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)?lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Run Code Online (Sandbox Code Playgroud)

问题是某些字符无效.我想从R中或在导入文件进行处理之前从分析中排除无效字符.

我尝试使用iconv将所有文件转换为utf-8并排除任何无法转换为的内容,如下所示:

find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \; 
Run Code Online (Sandbox Code Playgroud)

正如在此指出的那样使用iconv将latin-1文件批量转换为utf-8

但我仍然得到同样的错误.

我很感激任何帮助.

r utf-8 text-mining iconv

27
推荐指数
6
解决办法
4万
查看次数

使用Watir Webdriver滚动Firefox

当我向下滚动浏览器时,我想抓一个动态生成更多内容的网站.我在FireFox中看过一篇相关文章Auto-Scroll,但它没有回答我的问题.

是否可以滚动网页直到页面结束(Web服务器不再生成内容)或直到使用Watir Web驱动程序刷新一些内容?

ruby firefox watir watir-webdriver

5
推荐指数
1
解决办法
3275
查看次数

标签 统计

firefox ×1

iconv ×1

r ×1

ruby ×1

text-mining ×1

utf-8 ×1

watir ×1

watir-webdriver ×1