标签: crf++

自然语言处理 - 将非结构化书目转换为结构化元数据

目前正致力于一个自然语言处理项目,我需要将非结构化的参考书目部分(在研究文章末尾)转换为结构化元数据,如"年","作者","期刊","卷ID","页面"数字","标题"等

例如:输入

McCallum, A.; Nigam, K.; and Ungar, L. H. (2000). Efficient clustering of high-dimensional data sets with application to reference matching. In Knowledge Discovery and Data Mining, 169–178

Run Code Online (Sandbox Code Playgroud)

预期产量:

<Author> McCallum, A.</Author> <Author>Nigam, K.</Author> <Author>Ungar, L. H.</Author>
<Year> 2000 </Year>
<Title>Efficient clustering of high-dimensional data sets with application to reference matching <Title> and so on

Run Code Online (Sandbox Code Playgroud)

使用的工具:CRFsuite

数据集:包含12000个引用

包含期刊标题,
包含文章标题的话,
包含位置名称,

给定行中的每个单词都被视为标记,并且对于每个标记,我得出以下特征

BOR在行首,
EOR结束
digitFeature:如果令牌是数字
年份:如果令牌是年份格式,如19**和20**
在当前数据集中可用,

从上面的工具和数据集我只有63.7%的准确率."Title"的准确度非常低,"Year"和"Volume"的准确度也很低.

问题:

我可以绘制任何其他功能吗？
我可以使用任何其他工具吗？

java nlp crf++

Som*_*dam

2015 08-30

9
推荐指数

1
解决办法

214
查看次数

如何制作CRF ++的模板文件？

我是CRF ++的新手.我正在教自己查看它的手册:http: //crfpp.googlecode.com/svn/trunk/doc/index.html？source = navbar#templ

我不明白这意味着什么:

这是一个描述unigram功能的模板.当你给一个

模板"U01:%x [0,1]",CRF ++自动生成一组功能

函数(func1 ... funcN)如:

func1 = if(output = B-NP and feature ="U01:DT")返回1否则返回0

func2 = if(output = I-NP and feature ="U01:DT")返回1否则返回0

func3 = if(output = O and feature ="U01:DT")返回1否则返回0

.... funcXX = if(output = B-NP and feature ="U01:NN")返回1否则返回0

funcXY = if(output = O and feature ="U01:NN")return 1 else return 0.模板生成的要素函数数量

等于(L*N),其中L是输出的数量

为什么Unigram功能有很多行,它们是什么意思？

crf++ crf

use*_*952

2016 07-11

8
推荐指数

2
解决办法

6422
查看次数