小编RAV*_*AVI的帖子

选区解析器和依赖解析器之间的区别

选区解析器和依赖解析器之间有什么区别？这两者的用法有什么不同？

parsing nlp

RAV*_*AVI

2016 10-29

107
推荐指数

1
解决办法

3万
查看次数

NLTK - 从命令行下载除corpara之外的所有nltk数据,不使用Downloader UI

我们可以使用以下方式下载所有nltk数据:

> import nltk
> nltk.download('all')

Run Code Online (Sandbox Code Playgroud)

或使用以下具体数据:

> nltk.download('punkt')
> nltk.download('maxent_treebank_pos_tagger')

Run Code Online (Sandbox Code Playgroud)

但我想下载除'corpara'文件之外的所有数据,例如所有数据 - 所有chunkers,grammers,model,stemmers,taggers,tokenizer等

没有Downloader用户界面有什么办法吗？就像是,

> nltk.download('all-taggers')

Run Code Online (Sandbox Code Playgroud)

python nlp corpus nltk nltk-trainer

RAV*_*AVI

2016 07-10

6
推荐指数

1
解决办法

1797
查看次数

NLTK - nltk.tokenize.RegexpTokenizer - 正则表达式无法按预期工作

我正在尝试使用RegexpTokenizer对文本进行标记.

码:

from nltk.tokenize import RegexpTokenizer
#from nltk.tokenize import word_tokenize

line = "U.S.A Count U.S.A. Sec.of U.S. Name:Dr.John Doe J.Doe 1.11 1,000 10--20 10-20"
pattern = '[\d|\.|\,]+|[A-Z][\.|A-Z]+\b[\.]*|[\w]+|\S'
tokenizer = RegexpTokenizer(pattern)

print tokenizer.tokenize(line)
#print word_tokenize(line)

Run Code Online (Sandbox Code Playgroud)

输出:

['U','.','S','.','A','计数','U','.','S','.','A','.',' Sec','.','of','U','.','S','.','Name',':','Dr','.','John','Doe' ,'J','.','Doe','1.11','1,000','10',' - ',' - ','20','10',' - ','20']

预期产出:

['USA','Count','USA','Sec','.','of','US','Name',':','Dr','.','John',' Doe','J'','Doe','1.11','1,000','10',' - ',' - ','20','10',' - ','20']

为什么tokenizer也会掠过我预期的代币"USA","US"？我该如何解决这个问题？

我的正则表达式:https://regex101.com/r/dS1jW9/1

python regex nlp tokenize nltk

RAV*_*AVI

lucky-day

5
推荐指数

1
解决办法

5849
查看次数

HTML 如何获取父组件的 id？

我想使用 javascript 获取父标签的 id。在此示例中，文本“stackoverflow”的父 id 是“sofsite”，“This”的父 id 是“sofbody”。

 <body id = 'sofbody'>
      This is <a href = "www.stackoverflow.com" id = "sofsite">stackoverflow</a>.
 </body>

Run Code Online (Sandbox Code Playgroud)

html javascript parent-child parentid

RAV*_*AVI

2012 05-02

1
推荐指数

1
解决办法

8861
查看次数

标签统计

nlp ×3

nltk ×2

python ×2

corpus ×1

html ×1

javascript ×1

nltk-trainer ×1

parent-child ×1

parentid ×1

parsing ×1

regex ×1

tokenize ×1

选区解析器和依赖解析器之间的区别

NLTK - 从命令行下载除corpara之外的所有nltk数据,不使用Downloader UI

NLTK - nltk.tokenize.RegexpTokenizer - 正则表达式无法按预期工作

HTML 如何获取父组件的 id？

标签 统计

小编RAV_AVI的帖子

标签统计