小编RAV*_*AVI的帖子

选区解析器和依赖解析器之间的区别

选区解析器依赖解析器之间有什么区别?这两者的用法有什么不同?

parsing nlp

107
推荐指数
1
解决办法
3万
查看次数

NLTK - 从命令行下载除corpara之外的所有nltk数据,不使用Downloader UI

我们可以使用以下方式下载所有nltk数据:

> import nltk
> nltk.download('all')
Run Code Online (Sandbox Code Playgroud)

或使用以下具体数据:

> nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')
Run Code Online (Sandbox Code Playgroud)

但我想下载除'corpara'文件之外的所有数据,例如所有数据 - 所有chunkers,grammers,model,stemmers,taggers,tokenizer等

没有Downloader用户界面有什么办法吗?就像是,

> nltk.download('all-taggers')
Run Code Online (Sandbox Code Playgroud)

python nlp corpus nltk nltk-trainer

6
推荐指数
1
解决办法
1797
查看次数

NLTK - nltk.tokenize.RegexpTokenizer - 正则表达式无法按预期工作

我正在尝试使用RegexpTokenizer对文本进行标记.

码:

from nltk.tokenize import RegexpTokenizer
#from nltk.tokenize import word_tokenize

line = "U.S.A Count U.S.A. Sec.of U.S. Name:Dr.John Doe J.Doe 1.11 1,000 10--20 10-20"
pattern = '[\d|\.|\,]+|[A-Z][\.|A-Z]+\b[\.]*|[\w]+|\S'
tokenizer = RegexpTokenizer(pattern)

print tokenizer.tokenize(line)
#print word_tokenize(line)
Run Code Online (Sandbox Code Playgroud)

输出:

['U','.','S','.','A','计数','U','.','S','.','A','.',' Sec','.','of','U','.','S','.','Name',':','Dr','.','John','Doe' ,'J','.','Doe','1.11','1,000','10',' - ',' - ','20','10',' - ','20']

预期产出:

['USA','Count','USA','Sec','.','of','US','Name',':','Dr','.','John',' Doe','J'','Doe','1.11','1,000','10',' - ',' - ','20','10',' - ','20']

为什么tokenizer也会掠过我预期的代币"USA","US"?我该如何解决这个问题?

我的正则表达式:https://regex101.com/r/dS1jW9/1

python regex nlp tokenize nltk

5
推荐指数
1
解决办法
5849
查看次数

HTML 如何获取父组件的 id?

我想使用 javascript 获取父标签的 id。在此示例中,文本“stackoverflow”的父 id 是“sofsite”,“This”的父 id 是“sofbody”。

 <body id = 'sofbody'>
      This is <a href = "www.stackoverflow.com" id = "sofsite">stackoverflow</a>.
 </body>
Run Code Online (Sandbox Code Playgroud)

html javascript parent-child parentid

1
推荐指数
1
解决办法
8861
查看次数