Con*_* M. 5 regex text r special-characters
我有一个很大的(1m+ 行).txt 文件,我正在读入 R。每一行都是一个新闻故事的摘录,它使用了来自其原始来源的字符,这会导致问题。有些行将包含所有 ASCII 字符,而其他行则不包含但确实适合 UTF-8 编码框架。还有其他字符(类似于 Dingbats)似乎无视所有编码,编码字符也是如此。
我能够使用 Notepad++ 清除编码字符,但是每次我尝试将完整数据集读入 R 时, read 或 readLines 函数只能读取第一个字符和它无法解释的第一个字符。
> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error
Run Code Online (Sandbox Code Playgroud)
无效的输入消息似乎只是一个警告,但 R 只能读入第一个“难以辨认”的字符。我尝试写入news.txt 文件以查看它停止的字符,但像这样手动清理文件是不现实的。
如何在循环中使用try()或trycatch()跳过任何具有难以辨认字符的行?
| 归档时间: |
|
| 查看次数: |
4744 次 |
| 最近记录: |