小编Mic*_*man的帖子

Spark阅读python3 pickle作为输入

我的数据以Python 3 pickle文件集的形式提供.其中大多数是熊猫的序列化DataFrames.

我想开始使用Spark,因为我需要一台计算机可以拥有的更多内存和CPU.此外,我将使用HDFS进行分布式存储.

作为初学者,我没有找到解释如何使用pickle文件作为输入文件的相关信息.

它存在吗？如果没有,有任何解决方法吗？

非常感谢

python serialization apache-spark rdd pyspark

Mic*_*man

2018 11-08

8
推荐指数

1
解决办法

5282
查看次数

Cython:pyximport:在pyximport.install中启用分析

我的Python 3项目正在使用cython.

在生产部署中,我使用的是构建脚本,除其他外,它禁用了分析:

from distutils.core import setup
from Cython.Build import cythonize
import os

compiler_directives = {
    'language_level': 3,
    'optimize.use_switch': True,
    'profile': True,
}

setup(
    packages=["XXXXXX"],
    ext_modules=cythonize(
        module_list="**/*.pyx",
        compiler_directives=compiler_directives,
    )
)

Run Code Online (Sandbox Code Playgroud)

在开发中,我正在使用pyximport.为了区分这两个上下文,我正在测试"生产"用户是否在项目的顶级__init__.py文件中使用.如果这不是生产,我正在使用pyximport; pyximport.install,以便它变得完全透明:

if getpass.getuser != PRODUCTION_USER_NAME:
    import pyximport
    pyximport.install(
        pyximport=True,
        pyimport=False,
        build_dir=None,
        build_in_temp=True,
        setup_args={},
        reload_support=False,
        load_py_module_on_import_failure=False,
        inplace=False,
        language_level=3,
    )

Run Code Online (Sandbox Code Playgroud)

我想在开发环境中为所有cython文件启用分析.我试图将该profile=True参数添加到piximport.install语句中,但它不起作用.

我该怎么办？

一些额外的评论: