涉及多个特征时如何处理文本分类问题

Question

我正在研究一个文本分类问题，其中多个文本特征需要构建一个模型来预测工资范围。请参考样本数据集大多数资源/教程只处理一列的特征提取，然后预测目标。我了解文本预处理、特征提取（CountVectorizer 或 TF-IDF）以及应用算法等过程。

在这个问题中，我有多个输入文本功能。当涉及多个特征时如何处理文本分类问题？这些是我已经尝试过的方法，但我不确定这些方法是否正确。请提供您的意见/建议。

1) 分别对每个特征应用数据清理，然后是 TF-IDF，然后是逻辑回归。在这里我试着看看我是否可以只使用一个特征进行分类。

2) 分别对所有列应用数据清洗，然后对每个特征应用 TF-IDF，然后合并所有特征向量以仅创建一个特征向量。最后是逻辑回归。

3) 分别对所有列应用数据清理并合并所有清理过的列以创建一个特征“merged_text”。然后在这个合并的文本上应用 TF-IDF，然后进行逻辑回归。

所有这 3 种方法在交叉验证和测试集上都给了我大约 35-40% 的准确率。我期望在未提供的测试集上至少有 60% 的准确度。

另外，我不明白如何使用文本数据来使用“company_name”和“experience”。company_name 中大约有 2000 多个唯一值。请提供有关如何处理文本分类问题中的数字数据的输入/指针。

Answer 1

试试这些：

对“职位描述”、“职位名称”和“关键技能”应用文本预处理。去除所有停用词，将每个词分开去除标点符号，将所有词小写，然后应用 TF-IDF 或 Count Vectorizer，不要忘记在训练模型之前缩放这些特征。
将经验转换为最小经验和最大经验 2 特征，并将其视为离散数字特征。
公司和位置可以被视为一个分类特征，并在训练模型之前创建虚拟变量/一个热编码。
尝试结合工作类型和关键技能，然后进行矢量化，看看效果如何更好。
使用随机森林回归器，使用 GridCV 调整超参数：n_estimators、max_depth、max_features。

希望这些将提高模型的性能。

让我知道它在这些方面的表现如何。