小编use*_*232的帖子

如何在 R 中读取 UTF-8 编码的 XML 文件

我正在使用 Duncan Temple Lang 的 XML 包的 xmlParse 和 xPathApply 读取 R 中的 UTF-8 编码的 XML 文件。我在将文件中的文本读取到各种语言的数据框中时遇到问题。我目前使用的是 Windows 操作系统,但此 R 脚本将在不同的计算机上使用,因此我需要一个适合所有人的解决方案。请参阅下面的示例 XML 文件:

\n\n
<?xml version="1.0" encoding="UTF-8"?>\n<CATALOG>\n    <L1 lang="zh-TW">\xe4\xbd\xbf\xe7\x94\xa8\xe8\x80\x85\xe8\xad\x98\xe5\x88\xa5\xe7\xa2\xbc</L1>\n    <L2 lang="vi-VN">ID ng\xc6\xb0\xc6\xa1\xcc\x80i du\xcc\x80ng</L2>\n</CATALOG>\n
Run Code Online (Sandbox Code Playgroud)\n\n

该文本值分别以 \n 中的编码格式显示<U+4F7F><U+7528><U+8005><U+8B58><U+5225><U+78BC>ID nguo`i du`ng请注意,这只是一个示例,实际的 XML 文件包含不同语言的文本。

\n\n

代码片段:

\n\n
library(XML)\nlibrary(plyr)\n\ngetValues <- function(x) {\n  List <- list()\n\n  if(inherits(x, "XMLInternalElementNode")) {\n    if(length(xmlValue(x, recursive=FALSE)) != 0) {\n      List[[length(List)+1]] <- c(node = xmlName(x), value = xmlValue(x, recursive=FALSE))\n    }\n  }\n\nreturn(List)\n}\n\nvisitNode <- function(node, xpath = "//node()") {\n …
Run Code Online (Sandbox Code Playgroud)

xml r dataframe xml-parsing

5
推荐指数
1
解决办法
1724
查看次数

标签 统计

dataframe ×1

r ×1

xml ×1

xml-parsing ×1