我们可以使用以下方式下载所有nltk数据:
> import nltk
> nltk.download('all')
Run Code Online (Sandbox Code Playgroud)
或使用以下具体数据:
> nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')
Run Code Online (Sandbox Code Playgroud)
但我想下载除'corpara'文件之外的所有数据,例如所有数据 - 所有chunkers,grammers,model,stemmers,taggers,tokenizer等
没有Downloader用户界面有什么办法吗?就像是,
> nltk.download('all-taggers')
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用RegexpTokenizer对文本进行标记.
码:
from nltk.tokenize import RegexpTokenizer
#from nltk.tokenize import word_tokenize
line = "U.S.A Count U.S.A. Sec.of U.S. Name:Dr.John Doe J.Doe 1.11 1,000 10--20 10-20"
pattern = '[\d|\.|\,]+|[A-Z][\.|A-Z]+\b[\.]*|[\w]+|\S'
tokenizer = RegexpTokenizer(pattern)
print tokenizer.tokenize(line)
#print word_tokenize(line)
Run Code Online (Sandbox Code Playgroud)
输出:
['U','.','S','.','A','计数','U','.','S','.','A','.',' Sec','.','of','U','.','S','.','Name',':','Dr','.','John','Doe' ,'J','.','Doe','1.11','1,000','10',' - ',' - ','20','10',' - ','20']
预期产出:
['USA','Count','USA','Sec','.','of','US','Name',':','Dr','.','John',' Doe','J'','Doe','1.11','1,000','10',' - ',' - ','20','10',' - ','20']
为什么tokenizer也会掠过我预期的代币"USA","US"?我该如何解决这个问题?
我的正则表达式:https://regex101.com/r/dS1jW9/1
我想使用 javascript 获取父标签的 id。在此示例中,文本“stackoverflow”的父 id 是“sofsite”,“This”的父 id 是“sofbody”。
<body id = 'sofbody'>
This is <a href = "www.stackoverflow.com" id = "sofsite">stackoverflow</a>.
</body>
Run Code Online (Sandbox Code Playgroud) nlp ×3
nltk ×2
python ×2
corpus ×1
html ×1
javascript ×1
nltk-trainer ×1
parent-child ×1
parentid ×1
parsing ×1
regex ×1
tokenize ×1