我正在使用 Duncan Temple Lang 的 XML 包的 xmlParse 和 xPathApply 读取 R 中的 UTF-8 编码的 XML 文件。我在将文件中的文本读取到各种语言的数据框中时遇到问题。我目前使用的是 Windows 操作系统,但此 R 脚本将在不同的计算机上使用,因此我需要一个适合所有人的解决方案。请参阅下面的示例 XML 文件:
\n\n<?xml version="1.0" encoding="UTF-8"?>\n<CATALOG>\n <L1 lang="zh-TW">\xe4\xbd\xbf\xe7\x94\xa8\xe8\x80\x85\xe8\xad\x98\xe5\x88\xa5\xe7\xa2\xbc</L1>\n <L2 lang="vi-VN">ID ng\xc6\xb0\xc6\xa1\xcc\x80i du\xcc\x80ng</L2>\n</CATALOG>\nRun Code Online (Sandbox Code Playgroud)\n\n该文本值分别以 \n 中的编码格式显示<U+4F7F><U+7528><U+8005><U+8B58><U+5225><U+78BC>。ID nguo`i du`ng请注意,这只是一个示例,实际的 XML 文件包含不同语言的文本。
代码片段:
\n\nlibrary(XML)\nlibrary(plyr)\n\ngetValues <- function(x) {\n List <- list()\n\n if(inherits(x, "XMLInternalElementNode")) {\n if(length(xmlValue(x, recursive=FALSE)) != 0) {\n List[[length(List)+1]] <- c(node = xmlName(x), value = xmlValue(x, recursive=FALSE))\n }\n }\n\nreturn(List)\n}\n\nvisitNode <- function(node, xpath = "//node()") {\n …Run Code Online (Sandbox Code Playgroud)