R - 如何在读取大文件时处理“在输入连接上发现无效输入”警告？

Con*_* M. 5 regex text r special-characters

我有一个很大的（1m+ 行）.txt 文件，我正在读入 R。每一行都是一个新闻故事的摘录，它使用了来自其原始来源的字符，这会导致问题。有些行将包含所有 ASCII 字符，而其他行则不包含但确实适合 UTF-8 编码框架。还有其他字符（类似于 Dingbats）似乎无视所有编码，编码字符也是如此。

我能够使用 Notepad++ 清除编码字符，但是每次我尝试将完整数据集读入 R 时， read 或 readLines 函数只能读取第一个字符和它无法解释的第一个字符。

> con <- file(description=filepath, open="r", encoding = "UTF-8")
> news <- readLines(con, n = 100000)
invalid input found on input connection 'en_US/en_US_news.txt' # warning message not error

Run Code Online (Sandbox Code Playgroud)

无效的输入消息似乎只是一个警告，但 R 只能读入第一个“难以辨认”的字符。我尝试写入news.txt 文件以查看它停止的字符，但像这样手动清理文件是不现实的。

如何在循环中使用try()或trycatch()跳过任何具有难以辨认字符的行？

归档时间：	7 年，3 月前
查看次数：	4744 次
最近记录：	7 年，3 月前