小编Dan*_*nny的帖子

R向量大小限制:.C中不支持"长向量(参数5)"

我有一个非常大的矩阵我试图在具有足够内存的服务器上运行glmnet.它甚至在非常大的数据集上工作到一定程度,之后我得到以下错误:

Error in elnet(x, ...) : long vectors (argument 5) are not supported in .C

Run Code Online (Sandbox Code Playgroud)

如果我理解正确,这是由R的限制引起的,R不能有任何长度超过INT_MAX的向量.那是对的吗？有没有可用的解决方案,不需要完全重写glmnet？任何替代R解释器(Riposte等)是否解决了这个限制？

谢谢!

scalability r vector bigdata glmnet

Dan*_*nny

2016 10-24

10
推荐指数

1
解决办法

3265
查看次数

AWS中的Spark:"S3AbortableInputStream:并非所有字节都是从S3ObjectInputStream中读取的"

我在运行PySpark应用程序:

EMR-5.8.0
Hadoop发行版:亚马逊2.7.3
Spark 2.2.0

我正在一个非常大的集群上运行.应用程序从s3读取一些输入文件.其中一个被加载到内存中并广播到所有节点.另一个使用SparkFiles功能分发到集群中每个节点的磁盘.该应用程序可以正常工作但性能比较大的作业要慢.查看日志文件,我看到几乎不断重复的以下警告:

WARN S3AbortableInputStream: Not all bytes were read from the S3ObjectInputStream, aborting HTTP connection. This is likely an error and may result in sub-optimal behavior. Request only the bytes you need via a ranged GET or drain the input stream after use.

Run Code Online (Sandbox Code Playgroud)

它往往发生在有关访问加载到内存和广播的文件的消息之后.这个警告是警告的吗？怎么避免呢？

谷歌搜索带来了几个人在本机Hadoop应用程序中处理此警告,但我在Spark或PySpark中没有发现任何相关信息,也无法弄清楚这些解决方案将如何适用于我.

谢谢!

hadoop hdfs apache-spark pyspark

Dan*_*nny

lucky-day

7
推荐指数

1
解决办法

5584
查看次数