小编Nit*_*tin的帖子

Parquet文件的Spark导入将字符串转换为bytearray

我有一个未压缩的Parquet文件,其中包含"爬虫日志"类型的数据.

我通过PySpark将它导入Spark

sq = SQLContext(sc) p = sq.read.parquet('/path/to/stored_as_parquet/table/in/hive') p.take(1).show()

这显示转换为源数据的字符串

Row(host=bytearray(b'somehostname'), (checksum=bytearray(b'stuff'))...)

当我做p.dtypes时,我明白了

((host binary), (checksum binary) ....).

我该怎么做才能避免这种转换,或者我如何转换回我需要的转换

即当我做p.dtypes时我想看

((host string), (checksum string) ....)

谢谢.

apache-spark parquet

8
推荐指数
2
解决办法
3970
查看次数

有没有人在node.js中使用过优秀的Date.js库?

有没有人为Date.js创建了一个commonjs包装器?我想在节点内部使用Date.js库,并且不想将其作为裸文件导入,并且如果我可以帮助它则评估它.

javascript node.js

7
推荐指数
2
解决办法
9410
查看次数

Mongo没有max()函数,我该如何解决这个问题呢?

我有一个MongoDB集合,需要在所有文档中找到某个字段的max()值.此值是时间戳,我需要通过查找最大时间戳来查找最新的文档.对它进行排序并获得第一个效率非常快.我应该单独维护一个'maxval',并在每次doc到达该字段的值更大时更新它吗?有更好的建议吗?非常感谢.

mongodb

6
推荐指数
2
解决办法
7500
查看次数

redis,mongo或mysql是否有任何非阻塞的node.js db驱动程序?

我知道有这些阻塞驱动程序并使用它们但我正在寻找非阻塞节点驱动程序.谢谢.

mongodb nosql redis node.js

2
推荐指数
1
解决办法
1242
查看次数

标签 统计

mongodb ×2

node.js ×2

apache-spark ×1

javascript ×1

nosql ×1

parquet ×1

redis ×1