laz*_*zy1 6 python scikit-learn
看看Kaggel的工作薪资预测,我看到数字特征(如类别)和文本特征(如FullDescription).
我如何进行这些数据的培训?我想过使用TfidfTransformer对文本进行矢量化,但它会创建稀疏矩阵,许多学习算法(例如RandomForestRegressor)拒绝使用它.此外,一旦我有文本的特征向量,我如何将其与其他功能结合?
有关如何处理此类数据的任何指示?
谢谢!
我想先学习独立于每个文本字段的TF-IDF特征的线性模型,作为附加功能添加的线性模型预测到的其他功能,并培训ExtraTreesRegressor或GradientBoostedTreeRegressor对组合特征.
| 归档时间: |
|
| 查看次数: |
1486 次 |
| 最近记录: |