我正在尝试使用 XGBoost 在配置单元上的数据上训练模型,数据太大,我无法将其转换为 Pandas df,因此我必须将 XGBoost 与 spark df 结合使用。创建 XGBoostEstimator 时,出现错误:
TypeError: 'JavaPackage' 对象不可调用异常 AttributeError: "'NoneType' object has no attribute '_detach'" in ignore
我没有使用 xgboost for spark 的经验,我在网上尝试了一些教程,但都没有奏效。我试图隐藏到 pandas df 但数据太大,我总是OutOfMemoryException从 Java 包装器中获取(我也尝试查找它,但该解决方案对我不起作用,提高了执行程序内存)。
我正在关注的最新教程是:
放弃 XGBoost 模块后,我开始使用sparkxgb.
spark = create_spark_session('shai', 'dna_pipeline')
# sparkxgboost files
spark.sparkContext.addPyFile('resources/sparkxgb.zip')
def create_spark_session(username=None, app_name="pipeline"):
if username is not None:
os.environ['HADOOP_USER_NAME'] = username
return SparkSession \
.builder \
.master("yarn") \
.appName(app_name) \
.config(...) \
.config(...) \
.getOrCreate()
def train():
train_df = …Run Code Online (Sandbox Code Playgroud)