如何构建一个类似于 20newsgroups 的 scikit-learn 数据集

min*_*ink 5 python dataset scikit-learn

我刚刚开始使用 scikit-learning,我有一些我想使用的特定文本数据。请先原谅我,但我不知道的还有很多,而且单单 ML 术语就被证明是一个陡峭的学习曲线。

我遵循了 20newsgroups 数据集教程,我的数据与新闻组结构非常相似。

来自教程的以下命令

categories = ['alt.atheism', 'soc.religion.christian','comp.graphics', 'sci.med']

from sklearn.datasets import fetch_20newsgroups

twenty_train = fetch_20newsgroups(subset='train',categories=categories, shuffle=True, random_state=42)
Run Code Online (Sandbox Code Playgroud)

和 fetch_20newsgroups 产生一个字典

# eg 
dict_keys(['DESCR', 'data', 'target', 'target_names', 'filenames'])
Run Code Online (Sandbox Code Playgroud)

所以我的问题是如何创建我自己的数据集,它与文本新闻组的格式几乎相同,例如

news/comp.graphics/file1234
...
news/comp.graphics/file5678
Run Code Online (Sandbox Code Playgroud)

我的数据会相似

eg
myData/targetX/file1
.....
myData/targetX/file2
Run Code Online (Sandbox Code Playgroud)

如果我错了,请纠正我,但似乎 scikit-learn 有一些工具可以从每个目标目录中的文件构建数据集。我已经看到了许多用于标记化、矢量化文本数据的工具,但我还没有能够加入这些点。

感谢有关如何构建我自己的数据集的任何指示或指导。

谢谢

如果对如何最好地实现这一目标有任何建议,我将不胜感激。