有这个:
text = word_tokenize("The quick brown fox jumps over the lazy dog")
Run Code Online (Sandbox Code Playgroud)
并运行:
nltk.pos_tag(text)
Run Code Online (Sandbox Code Playgroud)
我明白了:
[('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'NN'), ('dog', 'NN')]
Run Code Online (Sandbox Code Playgroud)
这是不正确的.quick brown lazy句子中的标签应为:
('quick', 'JJ'), ('brown', 'JJ') , ('lazy', 'JJ')
Run Code Online (Sandbox Code Playgroud)
我想知道如何匹配这样的日期"2014年10月21日"或"2014年10月21日"
到目前为止我所做的只是\b(?:Jan?|?:Feb?|?:Mar?|?:Apr?|?:May?|?:Jun?|?:Jul?|?:Aug?|?:Sep?|?:Oct?|?:Nov?|?:Dec?) [0-9]{1,2}[,] (?:19[7-9]\d|2\d{3})(?=\D|$)但这并没有让我任何地方
我有一个
list1 = ["one", "two", "two", "three", "four" , "five", "five", "five", "six"]
Run Code Online (Sandbox Code Playgroud)
而输出应该是
list2 = ["five" , "two", "one", "three" , "six"]
Run Code Online (Sandbox Code Playgroud)
"five" 是第一个元素,因为在list1中出现的次数最多(3)"two"是第二个元素,因为在list1中出现次数最多(2)"one","three"并且"six"具有相同较低的出现次数(1),因此它们是我的最后一次list2- 只要它们在"五"和"两"之后,它们的位置并不重要.简而言之,list2 = ["five" , "two", "six", "three" , "one"]或者list2 = ["five" , "two", "three", "one" , "six"]或接受任何其他变化.我可以通过创建一个字典来存储出现次数来解决这个问题,然后用dict命令我的项目创建一个新的列表
my_dict = {i:list1.count(i) for i in list1}
Run Code Online (Sandbox Code Playgroud)
但我需要更清洁的东西
我有一个字符串列表,stringlist = ["elementOne" , "elementTwo" , "elementThree"]我想搜索包含该"Two"字符串的元素并将其从列表中删除,这样我的列表就会变成 stringlist = ["elementOne" , "elementThree"]
我设法打印了它们,但我真的不知道如何从列表中完全删除,del因为我不知道索引或使用stringlist.remove("elementTwo")因为我不知道包含的元素的确切字符串"Two"
到目前为止我的代码:
for x in stringlist:
if "Two" in x:
print(x)
Run Code Online (Sandbox Code Playgroud) 使用此功能,[x for x in wn.all_synsets('n')]我可以在allnounsNLTK的帮助下获取Wordnet中所有名词的列表.
列表allnouns看起来像这样Synset('pile.n.01'), Synset('compost_heap.n.01'), Synset('mass.n.03'),等等.现在我可以通过使用得到任何元素allnouns[2],这应该是Synset('mass.n.03').
我想只提取单词质量,但由于某种原因我不能把它当作一个字符串,我尝试的所有东西都显示AttributeError: 'Synset' object has no attribute或TypeError: 'Synset' object is not subscriptable或者<bound method Synset.name of Synset('mass.n.03')>如果我尝试使用.name或.pos