在opennlp中训练自己的模型

use*_*228 20 model file opennlp

我发现很难创建自己的模型openNLP.任何人都可以告诉我,如何拥有模型.如何进行训练.

应该输入什么以及输出模型文件将存储在何处.

https://opennlp.apache.org/docs/1.5.3/manual/opennlp.html

这个网站非常有用,在代码中显示,并使用OpenNLP应用程序来训练所有不同类型的模型,如实体提取和词性等.

我可以在这里给你一些代码示例,但页面使用非常清楚.

理论明智的:

基本上,您创建一个文件,列出您要训练的内容

例如.

Sport [whitespace]这是一个关于足球,橄榄球和其他东西的网页

政治[空白]这是关于托尼布莱尔担任总理的一页.

格式在上面的页面中描述(每个模型需要不同的格式).创建此文件后,可以通过API或opennlp应用程序(通过命令行)运行它,并生成.bin文件.获得此.bin文件后,可以将其加载到模型中,然后开始使用它(根据上述网站中的api).

首先，您需要使用所需的实体训练数据。

句子应该用换行符 (\n) 分隔。值应与带有空格字符的和标记分开。
假设您要创建医学实体模型，那么数据应该是这样的：

<START:medicine> Augmentin-Duo <END> is a penicillin antibiotic that contains two medicines - <START:medicine> amoxicillin trihydrate <END> and 
<START:medicine> potassium clavulanate <END>. They work together to kill certain types of bacteria and are used to treat certain types of bacterial infections.

Run Code Online (Sandbox Code Playgroud)

例如，您可以参考示例数据集。训练数据应该至少有 15000 个句子才能获得更好的结果。

此外，您可以使用 Opennlp TokenNameFinderTrainer。输出文件将采用 .bin 格式。

这是示例：在 OpenNLP 中编写自定义 NameFinder 模型

有关更多详细信息，请参阅Opennlp 文档

也许这篇文章会对您有所帮助。它描述了如何从维基百科中提取的数据进行TokenNameFinder训练...

nuxeo - 博客 - 使用 Hadoop 和 Pig 挖掘维基百科进行自然语言处理

归档时间：	13 年，6 月前
查看次数：	16577 次
最近记录：	8 年前

在Kotlin中递归列出文件 35

Move_uploaded_file()函数不起作用 32

如何将具有特定文件扩展名的文件复制到我的python(2.5版)脚本中的文件夹中？ 20

如何在更改模型时停止ListView以"跳转" 9

如何在python中获取文件夹的文件描述符 7

如何为GlassFish Web应用程序提供对外部资源(文件)的访问？ 5

Eclipse - 另一个项目中的参考文件 5

PHP REST下载文件 5

如何检查java中的真实文件类型？ 4

iOS:UIImagePNGRepresentation().writeToFile不写入目标目录 3

什么是"大O"符号的简单英语解释？ 4851

检查JavaScript对象中是否存在密钥？ 2750

打印Java数组最简单的方法是什么？ 1852

如何检查SQL Server表中是否存在列？ 1792

如何检查变量是否是JavaScript中的数组？ 1713

使用Git从先前的提交中分支 1658

我怎样才能找到带有Mathematica的Waldo？ 1538

如何从其他线程更新GUI？ 1331

从已从磁盘中删除的Git存储库中删除多个文件 1294

如何在正则表达式中使用变量？ 1250