如何处理具有UTF-8标记字符串的R Package中的示例数据

Question

如何处理具有UTF-8标记字符串的R Package中的示例数据

我想在我正在编写的包中包含一个示例数据集(Twitter推文和metadata)R.

我使用Twitter API它下载了一个示例data.frame,并将其保存为我的包中的.RData(带有相应的.R数据描述文件).

当我运行R CMDCheck时,我得到以下注意,

 * checking data for non-ASCII characters ... NOTE
 Note: found 287 marked UTF-8 strings

Run Code Online (Sandbox Code Playgroud)

我试图保存data.frame有ASCII=TRUE,希望这将解决这个问题.但它仍然存在.有关如何让R CMDCHECK在没有音符的情况下运行的任何想法？

(另外,UTF-8如果这是解决方案,我愿意从示例数据中删除所有标记的字符串).谢谢!

data.frame中的示例行:

First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
  favorited favoriteCount replyToSN             created truncated replyToSID                 id replyToUID
1     FALSE             0      <NA> 2015-03-13 23:30:35     FALSE       <NA> 576525795927179264       <NA>
                                                   statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a>  my_name93            0     FALSE     FALSE
      longitude    latitude
1 -122.38100052 37.61865062

Run Code Online (Sandbox Code Playgroud)

Answer 1

Roc*_*nte 5

如果它对将来的任何人都有用,我发现的决议是这样的:

UTF-8标记的字符在数据集中,因为Twitter推文有时包括表情符号.

我给出的建议是,没有一种直接的方法来摆脱PACKAGE CMD CHECK中的NOTE而不仅仅删除所有UTF-8标记的字符串.

为此,我使用了以下命令:

nonUTF < - iconv(df$TroubleVector, from="UTF-8", to="ASCII")

在具有表情符号等的向量上.如果值具有UTF-8标记的字符串,则此命令返回NA.我使用它来对数据集进行子集化 - 现在我得到了一个干净的构建.

归档时间：	10 年，10 月前
查看次数：	507 次
最近记录：	6 年，7 月前