你很可能不得不创建自己的语料库.我有类似的任务,手动创建这样的语料库太繁琐了.因此,我创建了一个新闻语料库,它可以让您根据自己特定的主题兴趣快速开发语料库.
该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中.
from news_corpus_builder import NewsCorpusGenerator
# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'
# Save results to sqlite or files per article
ex = NewsCorpusGenerator(corpus_dir,'sqlite')
# Retrieve 50 links related to the search term dogs and assign a category of Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)
# Generate and save corpus
ex.generate_corpus(links)
Run Code Online (Sandbox Code Playgroud)
我博客上的更多细节
财务语料库可在此处下载.语料库有以下几类: