min*_*ink 5 python dataset scikit-learn
我刚刚开始使用 scikit-learning,我有一些我想使用的特定文本数据。请先原谅我,但我不知道的还有很多,而且单单 ML 术语就被证明是一个陡峭的学习曲线。
我遵循了 20newsgroups 数据集教程,我的数据与新闻组结构非常相似。
来自教程的以下命令
categories = ['alt.atheism', 'soc.religion.christian','comp.graphics', 'sci.med']
from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train',categories=categories, shuffle=True, random_state=42)
Run Code Online (Sandbox Code Playgroud)
和 fetch_20newsgroups 产生一个字典
# eg
dict_keys(['DESCR', 'data', 'target', 'target_names', 'filenames'])
Run Code Online (Sandbox Code Playgroud)
所以我的问题是如何创建我自己的数据集,它与文本新闻组的格式几乎相同,例如
news/comp.graphics/file1234
...
news/comp.graphics/file5678
Run Code Online (Sandbox Code Playgroud)
我的数据会相似
eg
myData/targetX/file1
.....
myData/targetX/file2
Run Code Online (Sandbox Code Playgroud)
如果我错了,请纠正我,但似乎 scikit-learn 有一些工具可以从每个目标目录中的文件构建数据集。我已经看到了许多用于标记化、矢量化文本数据的工具,但我还没有能够加入这些点。
感谢有关如何构建我自己的数据集的任何指示或指导。
谢谢
如果对如何最好地实现这一目标有任何建议,我将不胜感激。
| 归档时间: |
|
| 查看次数: |
1097 次 |
| 最近记录: |