小编Ela*_*hen的帖子

如何将 xgboost 集成到 spark 中?(Python)

我正在尝试使用 XGBoost 在配置单元上的数据上训练模型,数据太大,我无法将其转换为 Pandas df,因此我必须将 XGBoost 与 spark df 结合使用。创建 XGBoostEstimator 时,出现错误:

TypeError: 'JavaPackage' 对象不可调用异常 AttributeError: "'NoneType' object has no attribute '_detach'" in ignore

我没有使用 xgboost for spark 的经验,我在网上尝试了一些教程,但都没有奏效。我试图隐藏到 pandas df 但数据太大,我总是OutOfMemoryException从 Java 包装器中获取(我也尝试查找它,但该解决方案对我不起作用,提高了执行程序内存)。

我正在关注的最新教程是:

https://towardsdatascience.com/pyspark-and-xgboost-integration-tested-on-the-kaggle-titanic-dataset-4e75a568bdb

放弃 XGBoost 模块后,我开始使用sparkxgb.

spark = create_spark_session('shai', 'dna_pipeline')
# sparkxgboost files 
spark.sparkContext.addPyFile('resources/sparkxgb.zip')

def create_spark_session(username=None, app_name="pipeline"):
    if username is not None:
        os.environ['HADOOP_USER_NAME'] = username

    return SparkSession \
        .builder \
        .master("yarn") \
        .appName(app_name) \
        .config(...) \
        .config(...) \
        .getOrCreate()

def train():
    train_df = …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark xgboost

6
推荐指数
1
解决办法
3402
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1

xgboost ×1