如何制作或获取财务文件的语料库

Abt*_*Pst 3 nlp

我正在处理财务报告/文件的文件分类问题.这是否有现成的语料库?我找到了几个用例,但他们都创建了自己的语料库.

Ski*_*hie 5

你很可能不得不创建自己的语料库.我有类似的任务,手动创建这样的语料库太繁琐了.因此,我创建了一个新闻语料库,它可以让您根据自己特定的主题兴趣快速开发语料库.

该模块允许您生成自己的语料库,并将文本和相关标签存储在sqlite或平面文件中.

from news_corpus_builder import NewsCorpusGenerator

# Location to save generated corpus
corpus_dir = '/Users/skillachie/finance_corpus'

# Save results to sqlite or  files per article 
ex = NewsCorpusGenerator(corpus_dir,'sqlite')

# Retrieve 50 links related to the search term dogs and assign a category of   Pet to the retrieved links
links = ex.google_news_search('dogs','Pet',50)

# Generate and save corpus
ex.generate_corpus(links)
Run Code Online (Sandbox Code Playgroud)

博客上的更多细节

财务语料库可在此处下载.语料库有以下几类:

  • 政策(许可证,监管,证券交易委员会,货币,美联储,货币,财政,imf)
  • 国际金融(全球金融,国际货币基金组织,欧洲央行,希腊问题,人民币贬值)
  • 经济(GDP,就业,失业,住房,经济)筹集资本(IPO,股权)
  • 房地产
  • 兼并与收购(合并,收购)
  • 石油(石油,石油价格,天然气价格)
  • 商品(商品,黄金,白银)
  • 欺诈(内幕交易,庞氏骗局,金融欺诈)
  • 诉讼(公司诉讼,公司和解)
  • 收益报告