有没有一种方法在Python 2.7中使用NLTK来获取单词而不是包含的额外格式"synset"和括号"n.01"等等?
例如,如果我这样做
wn.synsets('dog')
Run Code Online (Sandbox Code Playgroud)
我的结果如下:
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]
Run Code Online (Sandbox Code Playgroud)
我怎样才能获得这样的列表?
dog
frump
cad
frank
pawl
andiron
chase
Run Code Online (Sandbox Code Playgroud)
有没有办法使用NLTK或我必须使用regular expressions?我可以regular expressions在python脚本中使用吗?
我有这个简单的XML文件:
<catalog>
<product dept="WMN">
<number>557</number>
<name language="en">Fleece Pullover</name>
<colorChoices>navy black</colorChoices>
</product>
<product dept="ACC">
<number>563</number>
<name language="en">Floppy Sun Hat</name>
</product>
<product dept="ACC">
<number>443</number>
<name language="en">Deluxe Travel Bag</name>
</product>
<product dept="MEN">
<number>784</number>
<name language="en">Cotton Dress Shirt</name>
<colorChoices>white gray</colorChoices>
<desc>Our<i>favorite</i>shirt!</desc>
</product>
</catalog>
Run Code Online (Sandbox Code Playgroud)
我正在读Priscila Walmsley的一本名为XQuery的书,它说要输入命令:
doc("catalog.xml")/*/product/@dept
Run Code Online (Sandbox Code Playgroud)
所以我输入BaseX
xquery doc("catalog.xml")/*/product/@dept
Run Code Online (Sandbox Code Playgroud)
我收到此错误:
Error:
[SENR0001] Attributes cannot be serialized:attribute dept { "WMN" }.
Run Code Online (Sandbox Code Playgroud)
尽管那本书说:
将返回输入文档中的四个dept属性.
我究竟做错了什么?