小编Gay*_*tri的帖子

在Pandas Python中读取XLSB文件

关于这个问题有很多问题,但是关于如何将xlsb文件读入pandas并没有简单的答案.是否有捷径可寻？

python pandas

Gay*_*tri

lucky-day

16
推荐指数

3
解决办法

2万
查看次数

在Spark中读取Avro文件

我已经将avro文件读入spark RDD，需要将其转换为sql数据框。我怎么做。

这是我到目前为止所做的。

import org.apache.avro.generic.GenericRecord
import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}
import org.apache.hadoop.io.NullWritable

val path = "hdfs://dds-nameservice/user/ghagh/"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)

Run Code Online (Sandbox Code Playgroud)

当我做：

avro.take(1)

Run Code Online (Sandbox Code Playgroud)

我回来

res1: Array[(org.apache.avro.mapred.AvroWrapper[org.apache.avro.generic.GenericRecord], org.apache.hadoop.io.NullWritable)] = Array(({"column1": "value1", "column2": "value2", "column3": value3,...

Run Code Online (Sandbox Code Playgroud)

如何将其转换为SparkSQL数据框？

我正在使用Spark 1.6

谁能告诉我是否有解决这个问题的简单方法？

scala apache-spark apache-spark-sql apache-zeppelin

Gay*_*tri

2017 08-17

5
推荐指数

1
解决办法

2万
查看次数

在 Docker 容器内为 Flask 应用程序公开不同的端口

我使用 docker 容器构建了一个 Flask 应用程序，该应用程序在端口 5000 上运行良好。但是，为了公开不同的端口，我必须将端口放入 app.py 中

if __name__ == '__main__':
    app.run(debug=True,host='0.0.0.0',port=6000)

Run Code Online (Sandbox Code Playgroud)

一旦我启动 docker 容器，它就可以很好地工作。

然而，当我刚刚这样做时

if __name__ == '__main__':
    app.run(debug=True,host='0.0.0.0')

Run Code Online (Sandbox Code Playgroud)

在 Dockerfile 中说

EXPOSE 6000

Run Code Online (Sandbox Code Playgroud)

并在 docker 容器上运行 Flask 应用程序，它不在端口 6000 上运行，而是在端口 5000 上运行。为什么会这样？对于 Flask 应用程序来说，在 dockerfile 中公开端口号还不够吗？

flask docker

Gay*_*tri

lucky-day

5
推荐指数

1
解决办法

1万
查看次数

一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配

我有两个 RDD，其中第一个 RDD 具有以下形式的记录

RDD1 = (1, 2017-2-13,"ABX-3354 gsfette"
        2, 2017-3-18,"TYET-3423 asdsad"
        3, 2017-2-09,"TYET-3423 rewriu"
        4, 2017-2-13,"ABX-3354 42324"
        5, 2017-4-01,"TYET-3423 aerr")

Run Code Online (Sandbox Code Playgroud)

第二个 RDD 具有以下形式的记录

RDD2 = ('mfr1',"ABX-3354")
       ('mfr2',"TYET-3423")

Run Code Online (Sandbox Code Playgroud)

我需要找到 RDD1 中与 RDD1 的第三列到 RDD2 的第二列匹配的 RDD2 中每个值具有完全匹配/部分匹配的所有记录，并获取计数

对于此示例，最终结果将是：

ABX-3354  2
TYET-3423 3

Run Code Online (Sandbox Code Playgroud)

做这个的最好方式是什么？

scala pattern-matching apache-spark apache-spark-sql

Gay*_*tri

2018 08-02

4
推荐指数

1
解决办法

2175
查看次数

使用Scikit Learn的DictVectorizer时,toarray中的MemoryError

我正在尝试在我的数据上实现SelectKBest算法,以获得最佳功能.为此,我首先使用DictVectorizer预处理我的数据,数据由1061427行和15个功能组成.每个功能都有许多不同的值,我相信由于高基数,我会收到内存错误.

我收到以下错误:

File "FeatureExtraction.py", line 30, in <module>
    quote_data = DV.fit_transform(quote_data).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/compressed.py", line 563, in toarray
    return self.tocoo(copy=False).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/coo.py", line 233, in toarray
    B = np.zeros(self.shape, dtype=self.dtype)
MemoryError

Run Code Online (Sandbox Code Playgroud)

有没有其他方法可以做到这一点？当我在具有256GB RAM的计算机上处理时,为什么会出现内存错误.

任何帮助表示赞赏!

python scipy scikit-learn

Gay*_*tri

2014 06-17

3
推荐指数

2
解决办法

7141
查看次数