相关疑难解决方法(0)

快速读取非常大的表作为数据帧

我有非常大的表(3000万行),我想加载为R中的数据帧 read.table()有很多方便的功能,但似乎实现中有很多逻辑会减慢速度.在我的情况下,我假设我提前知道列的类型,表不包含任何列标题或行名称,并且没有任何我必须担心的病态字符.

我知道在表格中阅读作为列表使用scan()可能非常快,例如:

datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))

Run Code Online (Sandbox Code Playgroud)

但是我将此转换为数据帧的一些尝试似乎将上述性能降低了6倍:

df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))))

Run Code Online (Sandbox Code Playgroud)

有没有更好的方法呢？或者很可能完全不同的方法来解决问题？

import r dataframe r-faq

eyt*_*tan

2018 06-03

489
推荐指数

9
解决办法

19万
查看次数

如何在C++中读取和操作CSV文件数据？

相当不言自明,我尝试谷歌并得到了很多可怕的expertsexchange,我在这里搜索也无济于事.在线教程或示例是最好的.多谢你们.

c++ csv

zkw*_*ntz

2009 01-19

51
推荐指数

6
解决办法

14万
查看次数

R:是否有可能将2000万行CSV中的读取并行/加速到R？

一旦CSV文件是通过加载read.csv,这是相当琐碎的使用multicore,segue等玩弄于CSV数据.然而,阅读它是时候下沉了.

意识到最好使用mySQL等.

假设使用运行R2.13的AWS 8xl集群计算实例

规格如下:

Cluster Compute Eight Extra Large specifications:
88 EC2 Compute Units (Eight-core 2 x Intel Xeon)
60.5 GB of memory
3370 GB of instance storage
64-bit platform
I/O Performance: Very High (10 Gigabit Ethernet)

Run Code Online (Sandbox Code Playgroud)

任何想法/想法都非常感激.

csv parallel-processing r bigdata

n.e*_*e.w

lucky-day

8
推荐指数

2
解决办法

2684
查看次数

标签统计

csv ×2

r ×2

bigdata ×1

c++ ×1

dataframe ×1

import ×1

parallel-processing ×1

r-faq ×1

快速读取非常大的表作为数据帧

如何在C++中读取和操作CSV文件数据？

R:是否有可能将2000万行CSV中的读取并行/加速到R？

标签 统计

标签统计