相关疑难解决方法(0)

将MSWord文件读入R中

是否可以将MSWord 2010文件读入R?我有Windows 7和戴尔PC.

我正在使用这条线:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
Run Code Online (Sandbox Code Playgroud)

尝试读取包含以下文本的MSWord文件:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC
Run Code Online (Sandbox Code Playgroud)

我收到一条警告信息:

警告消息:在readLines("c:/ users/mark w miller/simple R programs/test_for_r.docx")中:在'c:/ users/mark w miller/simple R programs/test_for_r.docx'上找到不完整的最终行

并且my.data似乎是胡言乱语:

# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"
Run Code Online (Sandbox Code Playgroud)

我知道通过这个简单的例子,我可以轻松地将MSWord文件转换为其他格式.但是,我的实际数据文件包含几十年前输入的复杂表格,然后再扫描成pdf文档.原始纸质文档的年龄和原始文件中的不完善,打字和/或扫描过程导致一些字母和数字不是很清楚.到目前为止,将pdf文件转换为MSWord似乎是正确翻译表格中最成功的.将MSWord文件转换为Excel或富文本等并不是很成功.即使在转换为MSWord之后,生成的文件也非常复杂并且包含许多错误.我想如果我能将MSWord文件读入R中,这可能是编辑和纠正它们的最有效方法.

我知道'package tm',我想可以将MSWord文件读入R,但我有点担心使用它,因为它似乎需要安装第三方软件.

谢谢你的任何建议.

r ms-word

9
推荐指数
2
解决办法
1万
查看次数

标签 统计

ms-word ×1

r ×1