如何构建一个类似于 20newsgroups 的 scikit-learn 数据集

我刚刚开始使用 scikit-learning，我有一些我想使用的特定文本数据。请先原谅我，但我不知道的还有很多，而且单单 ML 术语就被证明是一个陡峭的学习曲线。

我遵循了 20newsgroups 数据集教程，我的数据与新闻组结构非常相似。

来自教程的以下命令

categories = ['alt.atheism', 'soc.religion.christian','comp.graphics', 'sci.med']

from sklearn.datasets import fetch_20newsgroups

twenty_train = fetch_20newsgroups(subset='train',categories=categories, shuffle=True, random_state=42)

Run Code Online (Sandbox Code Playgroud)

和 fetch_20newsgroups 产生一个字典

# eg 
dict_keys(['DESCR', 'data', 'target', 'target_names', 'filenames'])

Run Code Online (Sandbox Code Playgroud)

所以我的问题是如何创建我自己的数据集，它与文本新闻组的格式几乎相同，例如

news/comp.graphics/file1234
...
news/comp.graphics/file5678

Run Code Online (Sandbox Code Playgroud)

我的数据会相似

eg
myData/targetX/file1
.....
myData/targetX/file2

Run Code Online (Sandbox Code Playgroud)

如果我错了，请纠正我，但似乎 scikit-learn 有一些工具可以从每个目标目录中的文件构建数据集。我已经看到了许多用于标记化、矢量化文本数据的工具，但我还没有能够加入这些点。

感谢有关如何构建我自己的数据集的任何指示或指导。

谢谢

如果对如何最好地实现这一目标有任何建议，我将不胜感激。

归档时间：	11 年，2 月前
查看次数：	1097 次
最近记录：	11 年，2 月前