小编Gay*_*tri的帖子

在Pandas Python中读取XLSB文件

关于这个问题有很多问题,但是关于如何将xlsb文件读入pandas并没有简单的答案.是否有捷径可寻?

python pandas

16
推荐指数
3
解决办法
2万
查看次数

在Spark中读取Avro文件

我已经将avro文件读入spark RDD,需要将其转换为sql数据框。我怎么做。

这是我到目前为止所做的。

import org.apache.avro.generic.GenericRecord
import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}
import org.apache.hadoop.io.NullWritable

val path = "hdfs://dds-nameservice/user/ghagh/"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)
Run Code Online (Sandbox Code Playgroud)

当我做:

avro.take(1)
Run Code Online (Sandbox Code Playgroud)

我回来

res1: Array[(org.apache.avro.mapred.AvroWrapper[org.apache.avro.generic.GenericRecord], org.apache.hadoop.io.NullWritable)] = Array(({"column1": "value1", "column2": "value2", "column3": value3,...
Run Code Online (Sandbox Code Playgroud)

如何将其转换为SparkSQL数据框?

我正在使用Spark 1.6

谁能告诉我是否有解决这个问题的简单方法?

scala apache-spark apache-spark-sql apache-zeppelin

5
推荐指数
1
解决办法
2万
查看次数

在 Docker 容器内为 Flask 应用程序公开不同的端口

我使用 docker 容器构建了一个 Flask 应用程序,该应用程序在端口 5000 上运行良好。但是,为了公开不同的端口,我必须将端口放入 app.py 中

if __name__ == '__main__':
    app.run(debug=True,host='0.0.0.0',port=6000)
Run Code Online (Sandbox Code Playgroud)

一旦我启动 docker 容器,它就可以很好地工作。

然而,当我刚刚这样做时

if __name__ == '__main__':
    app.run(debug=True,host='0.0.0.0')
Run Code Online (Sandbox Code Playgroud)

在 Dockerfile 中说

EXPOSE 6000
Run Code Online (Sandbox Code Playgroud)

并在 docker 容器上运行 Flask 应用程序,它不在端口 6000 上运行,而是在端口 5000 上运行。为什么会这样?对于 Flask 应用程序来说,在 dockerfile 中公开端口号还不够吗?

flask docker

5
推荐指数
1
解决办法
1万
查看次数

一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配

我有两个 RDD,其中第一个 RDD 具有以下形式的记录

RDD1 = (1, 2017-2-13,"ABX-3354 gsfette"
        2, 2017-3-18,"TYET-3423 asdsad"
        3, 2017-2-09,"TYET-3423 rewriu"
        4, 2017-2-13,"ABX-3354 42324"
        5, 2017-4-01,"TYET-3423 aerr")
Run Code Online (Sandbox Code Playgroud)

第二个 RDD 具有以下形式的记录

RDD2 = ('mfr1',"ABX-3354")
       ('mfr2',"TYET-3423")
Run Code Online (Sandbox Code Playgroud)

我需要找到 RDD1 中与 RDD1 的第三列到 RDD2 的第二列匹配的 RDD2 中每个值具有完全匹配/部分匹配的所有记录,并获取计数

对于此示例,最终结果将是:

ABX-3354  2
TYET-3423 3
Run Code Online (Sandbox Code Playgroud)

做这个的最好方式是什么?

scala pattern-matching apache-spark apache-spark-sql

4
推荐指数
1
解决办法
2175
查看次数

使用Scikit Learn的DictVectorizer时,toarray中的MemoryError

我正在尝试在我的数据上实现SelectKBest算法,以获得最佳功能.为此,我首先使用DictVectorizer预处理我的数据,数据由1061427行和15个功能组成.每个功能都有许多不同的值,我相信由于高基数,我会收到内存错误.

我收到以下错误:

File "FeatureExtraction.py", line 30, in <module>
    quote_data = DV.fit_transform(quote_data).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/compressed.py", line 563, in toarray
    return self.tocoo(copy=False).toarray()
File "/usr/lib64/python2.6/site-packages/scipy/sparse/coo.py", line 233, in toarray
    B = np.zeros(self.shape, dtype=self.dtype)
MemoryError
Run Code Online (Sandbox Code Playgroud)

有没有其他方法可以做到这一点?当我在具有256GB RAM的计算机上处​​理时,为什么会出现内存错误.

任何帮助表示赞赏!

python scipy scikit-learn

3
推荐指数
2
解决办法
7141
查看次数

控制 Python/Scala 中的表示

在 Python 中,“^A”由 chr(1) 表示。这就是我在我的文件中用作分隔符的内容。Scala 中的等效项是什么。我正在使用 scala 读取该文件。我想知道如何表示 ^A 以便分割我从文件中读取的数据。

python scala

2
推荐指数
1
解决办法
296
查看次数

NER 的线性 CRF 与 Word2Vec

我已经阅读了大量关于 Linear CRF 和 Word2Vec 的文章,想知道哪一个最适合进行命名实体识别。我使用斯坦福 NER(这是一个线性 CRF 实现)训练我的模型并获得了 85% 的精度。我知道 Word2vec 将相似的单词组合在一起,但它是做 NER 的好模型吗?

nlp named-entity-recognition

2
推荐指数
1
解决办法
2455
查看次数