这里演示的斯坦福NLP 给出了这样的输出:
Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./.
Run Code Online (Sandbox Code Playgroud)
部分语音标签是什么意思?我无法找到正式名单.它是斯坦福自己的系统,还是使用通用标签?(JJ例如,是什么?)
另外,例如,当我迭代句子,寻找名词时,我最终会做一些事情,比如查看是否有标签.contains('N').这感觉很弱.有没有更好的方法以编程方式搜索某个词性?
u''前缀和unicode()?有什么区别?
# -*- coding: utf-8 -*-
print u'??' # this works
print unicode('??', errors='ignore') # this works but print out nothing
print unicode('??') # error
Run Code Online (Sandbox Code Playgroud)
对于第三个print,错误显示:UnicodeDecodeError:'ascii'编解码器无法解码位置0中的字节0xe4
如果我有一个包含非ascii字符的文本文件,例如"上午",如何阅读并正确打印出来?
如何将不能使用utf8解码的字符替换为空白?
# -*- coding: utf-8 -*-
print unicode('\x97', errors='ignore') # print out nothing
print unicode('ABC\x97abc', errors='ignore') # print out ABCabc
Run Code Online (Sandbox Code Playgroud)
我该如何打印ABC abc而不是打印ABCabc?注意,\x97这只是一个示例字符。无法解码的字符是未知输入。
errors='ignore',它将不会打印任何内容。errors='replace',它将用一些特殊字符替换该字符。如何使用地名词典或词典作为CRF ++中的功能?
详细说明:假设我想在人名上做NER,并且我有一个包含常见人名的地名词典(或词典),我想用这个地名词典作为crf ++的输入,我该怎么做?
我正在使用条件随机字段包crf ++来执行命名实体识别任务.我知道如何在crf ++中表示一些常用的功能.例如,如果我们想使用Capitalization作为特征,我们可以在crf的特征模板中添加一个单独的列,指示单词是否大写.
我maven build在安装了 m2eclipse 的 eclipse 中运行,它显示:
具有此名称的 Maven 构建配置已存在。
配置文件在哪里,我可以删除它们,这样我就不会再有这样的命名冲突了吗?
例如,如何匹配_ab句子中的第二个_ab_ab is a test?我试图\>匹配词尾,但不适用于Python 2.7.注意:我匹配的不是字符串的结尾,而是单个单词的结尾.
其他帖子中有隐含的答案.但我认为应该提倡对这个问题作出简单而直接的回答.所以我在尝试以下帖子后没有找到直接和简洁的解决方案就问过它.