wef*_*weg 4 text-processing nlp libraries
Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)
Run Code Online (Sandbox Code Playgroud)
我可以使用哪些库来完成NLP的上述任何功能吗?
真的不想向AlchemyAPI出钱
实际上有很多免费提供的开源自然语言处理软件包.这是一个简短的列表,按工具包的实现语言组织:
如果您不确定要使用哪一个,我建议您从NLTK开始 .该软件包相当容易使用,并且在线提供了很好的文档,包括免费的书籍.
您应该能够使用NLTK轻松完成您列出的NLP任务,例如命名实体识别(NER),提取文档标签和文档分类.
Alchemy人称之为结构化数据提取的内容看起来只是HTML报废,只要页面仍以可视方式呈现相同的方式,就可以对基础HTML的更改进行修改.所以,这不是一个真正的NLP任务.
要从HTML中提取文本,只需使用boilerpipe.它快速,好,免费.