小编fac*_*off的帖子

Python NLTK pos_tag没有返回正确的词性标签

有这个:

text = word_tokenize("The quick brown fox jumps over the lazy dog")

Run Code Online (Sandbox Code Playgroud)

并运行:

nltk.pos_tag(text)

Run Code Online (Sandbox Code Playgroud)

我明白了:

[('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'NN'), ('dog', 'NN')]

Run Code Online (Sandbox Code Playgroud)

这是不正确的.quick brown lazy句子中的标签应为:

('quick', 'JJ'), ('brown', 'JJ') , ('lazy', 'JJ')

Run Code Online (Sandbox Code Playgroud)

通过在线工具进行测试可以得到相同的结果; quick,brown而fox应该是形容词不是名词.

python nlp machine-learning nltk pos-tagger

fac*_*off

2015 06-16

27
推荐指数

1
解决办法

1万
查看次数

正则表达式匹配日期,如月份名称日逗号和年份

我想知道如何匹配这样的日期"2014年10月21日"或"2014年10月21日"

到目前为止我所做的只是\b(?:Jan?|?:Feb?|?:Mar?|?:Apr?|?:May?|?:Jun?|?:Jul?|?:Aug?|?:Sep?|?:Oct?|?:Nov?|?:Dec?) [0-9]{1,2}[,] (?:19[7-9]\d|2\d{3})(?=\D|$)但这并没有让我任何地方

总之,我需要我的匹配字符串:"月[空间]日[逗号] [空间]年"我不关心闰年和月份的日期应该是1到31之间的任何东西,没有前导0
我需要这个正则表达式来处理python

regex

fac*_*off

2016 02-16

7
推荐指数

1
解决办法

2万
查看次数

如何通过最大数量的重复事件对具有重复项的列表进行排序 - Python

我有一个

list1 = ["one", "two", "two", "three", "four" , "five", "five", "five", "six"]

Run Code Online (Sandbox Code Playgroud)

而输出应该是

list2 = ["five" , "two", "one", "three" , "six"]

Run Code Online (Sandbox Code Playgroud)

"five" 是第一个元素,因为在list1中出现的次数最多(3)
"two"是第二个元素,因为在list1中出现次数最多(2)
"one","three"并且"six"具有相同较低的出现次数(1),因此它们是我的最后一次list2- 只要它们在"五"和"两"之后,它们的位置并不重要.简而言之,list2 = ["five" , "two", "six", "three" , "one"]或者list2 = ["five" , "two", "three", "one" , "six"]或接受任何其他变化.

我可以通过创建一个字典来存储出现次数来解决这个问题,然后用dict命令我的项目创建一个新的列表

my_dict = {i:list1.count(i) for i in list1}

Run Code Online (Sandbox Code Playgroud)

但我需要更清洁的东西

python list python-3.x

fac*_*off

2016 02-18

5
推荐指数

1
解决办法

82
查看次数

如果匹配字符串，则查找和删除列表元素

我有一个字符串列表，stringlist = ["elementOne" , "elementTwo" , "elementThree"]我想搜索包含该"Two"字符串的元素并将其从列表中删除，这样我的列表就会变成 stringlist = ["elementOne" , "elementThree"]

我设法打印了它们，但我真的不知道如何从列表中完全删除，del因为我不知道索引或使用stringlist.remove("elementTwo")因为我不知道包含的元素的确切字符串"Two"

到目前为止我的代码：

for x in stringlist:
   if "Two" in x:
       print(x)

Run Code Online (Sandbox Code Playgroud)

list python-3.x

fac*_*off

2015 06-11

4
推荐指数

1
解决办法

1万
查看次数

从NLTK for Python中的同义词列表中提取单词

使用此功能,[x for x in wn.all_synsets('n')]我可以在allnounsNLTK的帮助下获取Wordnet中所有名词的列表.

列表allnouns看起来像这样Synset('pile.n.01'), Synset('compost_heap.n.01'), Synset('mass.n.03'),等等.现在我可以通过使用得到任何元素allnouns[2],这应该是Synset('mass.n.03').

我想只提取单词质量,但由于某种原因我不能把它当作一个字符串,我尝试的所有东西都显示AttributeError: 'Synset' object has no attribute或TypeError: 'Synset' object is not subscriptable或者<bound method Synset.name of Synset('mass.n.03')>如果我尝试使用.name或.pos

python nlp list-comprehension nltk wordnet

fac*_*off

2018 01-18

4
推荐指数

1
解决办法

3127
查看次数