小编Spm*_*pmP的帖子

Apache spark:在提交或Spark启动时设置spark.eventLog.enabled和spark.eventLog.dir

我想设置spark.eventLog.enabledspark.eventLog.dirspark-submitstart-all级别 - 不要求它在scala/java/python代码中启用.我尝试了各种各样的事情但没有成功:

设置spark-defualts.conf

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://namenode:8021/directory
Run Code Online (Sandbox Code Playgroud)

要么

spark.eventLog.enabled           true
spark.eventLog.dir               file:///some/where
Run Code Online (Sandbox Code Playgroud)

运行spark-submit方式:

spark-submit --conf "spark.eventLog.enabled=true" --conf "spark.eventLog.dir=file:///tmp/test" --master spark://server:7077 examples/src/main/python/pi.py
Run Code Online (Sandbox Code Playgroud)

用环境变量启动spark:

SPARK_DAEMON_JAVA_OPTS="-Dspark.eventLog.enabled=true -Dspark.history.fs.logDirectory=$sparkHistoryDir -Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=2d"
Run Code Online (Sandbox Code Playgroud)

只是为了矫枉过正:

SPARK_HISTORY_OPTS="-Dspark.eventLog.enabled=true -Dspark.history.fs.logDirectory=$sparkHistoryDir -Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=2d"
Run Code Online (Sandbox Code Playgroud)

这些事情必须在何处以及如何设定以获取任意工作的历史?

apache-spark

14
推荐指数
1
解决办法
1万
查看次数

Cythonising Pandas:内容,索引和列的ctypes

我是新的,以用Cython,但我已经经历了非凡的加速只复制我.py.pyx(和cimport cython,numpy等等),并导入到ipython3pyximport.许多教程都是从这种方法开始的,下一步是cdef为每个数据类型添加声明,我可以为for循环中的迭代器做.但与大多数Pandas Cython教程或示例不同,我不应用函数,可以这么说,更多使用切片,求和和(等)来操纵数据.

所以问题是:我可以通过声明我的DataFrame只包含floats(double),并且列是int行和行来增加代码运行的速度int吗?

如何定义嵌入列表的类型?即[[int,int],[int]]

这是一个为DF分区生成AIC分数的示例,对不起它是如此冗长:

    cimport cython
    import numpy as np
    cimport numpy as np
    import pandas as pd

    offcat = [
        "breakingPeace", 
        "damage", 
        "deception", 
        "kill", 
        "miscellaneous", 
        "royalOffences", 
        "sexual", 
        "theft", 
        "violentTheft"
        ]

    def partitionAIC(EmpFrame, part, OffenceEstimateFrame, ReturnDeathEstimate=False):
        """EmpFrame is DataFrame of ints, part is nested list of ints, OffenceEstimate frame is DF of float"""
        """partOf/block is a …
Run Code Online (Sandbox Code Playgroud)

cython pandas

6
推荐指数
1
解决办法
2412
查看次数

标签 统计

apache-spark ×1

cython ×1

pandas ×1