在opennlp中训练自己的模型

use*_*228 20 model file opennlp

我发现很难创建自己的模型openNLP.任何人都可以告诉我,如何拥有模型.如何进行训练.

应该输入什么以及输出模型文件将存储在何处.

and*_*kus 9

https://opennlp.apache.org/docs/1.5.3/manual/opennlp.html

这个网站非常有用,在代码中显示,并使用OpenNLP应用程序来训练所有不同类型的模型,如实体提取和词性等.

我可以在这里给你一些代码示例,但页面使用非常清楚.

理论明智的:

基本上,您创建一个文件,列出您要训练的内容

例如.

Sport [whitespace]这是一个关于足球,橄榄球和其他东西的网页

政治[空白]这是关于托尼布莱尔担任总理的一页.

格式在上面的页面中描述(每个模型需要不同的格式).创建此文件后,可以通过API或opennlp应用程序(通过命令行)运行它,并生成.bin文件.获得此.bin文件后,可以将其加载到模型中,然后开始使用它(根据上述网站中的api).


Nis*_*yal 5

首先,您需要使用所需的实体训练数据。

句子应该用换行符 (\n) 分隔。值应与带有空格字符的 和 标记分开。
假设您要创建医学实体模型,那么数据应该是这样的:

<START:medicine> Augmentin-Duo <END> is a penicillin antibiotic that contains two medicines - <START:medicine> amoxicillin trihydrate <END> and 
<START:medicine> potassium clavulanate <END>. They work together to kill certain types of bacteria and are used to treat certain types of bacterial infections.
Run Code Online (Sandbox Code Playgroud)

例如,您可以参考示例数据集。训练数据应该至少有 15000 个句子才能获得更好的结果。

此外,您可以使用 Opennlp TokenNameFinderTrainer。输出文件将采用 .bin 格式。

这是示例:在 OpenNLP 中编写自定义 NameFinder 模型

有关更多详细信息,请参阅Opennlp 文档


Oto*_*lez 2

也许这篇文章会对您有所帮助。它描述了如何从维基百科中提取的数据进行TokenNameFinder训练...