我想在我正在编写的包中包含一个示例数据集(Twitter
推文和metadata
)R
.
我使用Twitter API
它下载了一个示例data.frame,并将其保存为我的包中的.RData
(带有相应的.R
数据描述文件).
当我运行R CMD
Check时,我得到以下注意,
* checking data for non-ASCII characters ... NOTE
Note: found 287 marked UTF-8 strings
Run Code Online (Sandbox Code Playgroud)
我试图保存data.frame
有ASCII=TRUE
,希望这将解决这个问题.但它仍然存在.有关如何让R CMD
CHECK在没有音符的情况下运行的任何想法?
(另外,UTF-8
如果这是解决方案,我愿意从示例数据中删除所有标记的字符串).谢谢!
data.frame中的示例行:
First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
favorited favoriteCount replyToSN created truncated replyToSID id replyToUID
1 FALSE 0 <NA> 2015-03-13 23:30:35 FALSE <NA> 576525795927179264 <NA>
statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a> my_name93 0 FALSE FALSE
longitude latitude
1 -122.38100052 37.61865062
Run Code Online (Sandbox Code Playgroud)
如果它对将来的任何人都有用,我发现的决议是这样的:
UTF-8标记的字符在数据集中,因为Twitter推文有时包括表情符号.
我给出的建议是,没有一种直接的方法来摆脱PACKAGE CMD CHECK中的NOTE而不仅仅删除所有UTF-8标记的字符串.
为此,我使用了以下命令:
nonUTF < - iconv(df$TroubleVector, from="UTF-8", to="ASCII")
在具有表情符号等的向量上.如果值具有UTF-8标记的字符串,则此命令返回NA.我使用它来对数据集进行子集化 - 现在我得到了一个干净的构建.