小编Gra*_*lsh的帖子

如何将数据集放入R包中

我正在创建自己的R包,我想知道可以使用哪些方法将(时间序列)数据集添加到我的包中.以下是具体内容:

我创建了一个名为data的包子目录,我知道这是我应该保存要添加到包中的数据集的位置.我也认识到包含数据的文件可能是.rda,.txt.csv文件.

我想要添加到包中的每个数据系列由一列数字组成(例如,形式为340或4.5),并且每个数据系列的长度不同.

到目前为止,我已将所有数据集保存到.txt文件中.我还使用data()函数成功加载了数据.然而,问题没有解决.

问题是每个数据系列都作为一个因素加载,除了长度最大的系列.作为因子加载的系列包含缺失值(形式为'.').我不得不添加这些缺失值,以使每列数据的长度相同.我尝试将数据保存为不相等的列,但在调用data()后收到错误消息.

添加缺失值以加载数据的结果是,一旦加载了数据,我需要删除NA,以便继续我的数据分析!所以,这显然不是一种好的做事方式.

理想情况下(我想),我希望将数据作为数字向量或列表加载.通过这种方式,我不需要在每个系列的末尾添加NA.

我该如何解决这个问题?我应该将所有数据保存到一个文件中吗?如果是这样,我应该采用何种格式?也许我应该将数据集保存到多个文件中?再次,以哪种格式?这样做的最佳实用方法是什么?非常感谢任何提示.

r dataset r-package

13
推荐指数
1
解决办法
3271
查看次数

如何比较文本文件和删除重复项(Linux终端命令)

假设我有两个目录dir_onedir_two。在每个目录中,我都有一个名为data.txt的文本文件。换句话说,在两个单独的目录中有两个文件:/dir_one/data.txt/dir_one/data.txt尽管文件名相似,但是两个文本文件的内容可能相同也可能不同!

我想做的是这样的:

  1. 比较文本文件的内容:./dir_one/data.txt和./dir_one/data.txt
  2. 如果内容相同,请删除其中一个文本文件。

我在命令终端输入了以下内容:

diff -qrs ./dir_one/data.txt ./dir_two/data.txt
Run Code Online (Sandbox Code Playgroud)

并且我收到以下消息:

Files ./dir_one/data.txt ./dir_two/data.txt are identical.
Run Code Online (Sandbox Code Playgroud)

现在,我知道两个文本文件是相同的,我可以使用rm命令删除其中一个。到目前为止,一切都很好。然而...

问题是我要自动执行删除过程。我不想rm在命令行中输入。有没有办法做到这一点-例如在脚本中?

我还想知道如何将一个目录中的大量文本文件与另一个目录中的大量文本文件进行比较。同样,对于发现相同的任何文件,应删除其中一个重复项。这可能吗?

我发现了类似的问题,但是没有一个关于自动删除重复文件之一的问题。请注意,我正在使用ubuntu 12.04。

linux shell terminal command-line ubuntu-12.04

2
推荐指数
1
解决办法
6002
查看次数

标签 统计

command-line ×1

dataset ×1

linux ×1

r ×1

r-package ×1

shell ×1

terminal ×1

ubuntu-12.04 ×1