tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None)
Run Code Online (Sandbox Code Playgroud)
我无法理解这个功能的职责.它是否像查找表?这意味着返回与每个id(在id中)对应的参数?
例如,skip-gram如果我们使用模型tf.nn.embedding_lookup(embeddings, train_inputs),那么每个模型都会train_input找到相应的嵌入?
python deep-learning tensorflow word-embedding natural-language-processing
我在我的机器上安装了PyTorch,但每当我尝试执行以下操作时 -
from torchtext import data
from torchtext import datasets
Run Code Online (Sandbox Code Playgroud)
我收到以下错误.
ImportError: No module named 'torchtext'
Run Code Online (Sandbox Code Playgroud)
我怎样才能安装torchtext?
python nlp deep-learning pytorch natural-language-processing
我正在尝试开发一个文本分类器,将一个文本分类为Private或Public。以医疗或健康信息为例。我可以想到的典型分类器将关键字视为主要的区分符,对吗?像波纹管这样的场景呢?如果两条文本都包含相似的关键字但含义不同,该怎么办。
以下文字揭示了某人的私人(健康)状况(患者患有癌症):
我去过两个clinics和我的pcp。我ultrasound只能被告知这是一个解决方案cyst或解决方案hematoma,但是它越来越大,开始使我的腿变大ache。之所以PCP说不能,是cyst因为它起步太大,我发誓injured我的腿永远都没有,甚至没有bump。我现在感到害怕和恐惧cancer。仅在大约9个月前蹲下时,我才感到有点不适。3个月前我去蹲下收起衣服,有点麻烦hurt。在pain促使我开始审视自己leg,这是当我注意到lump在我小腿的底部muscle和弯曲只有变得更加明显。最终在四次clinic拜访之后,一个ultrasound和一个pcp结果似乎是积极的,而且人数越来越大。
[私人](正确分类)
接下来的一段文字是医生的评论,绝对没有透露健康状况。它介绍了典型分类器模型的缺点:
不要害怕,不要承担任何坏事cancer。我已经经历了几次案件,对我clinic来说似乎很熟悉。正如您提到的,它可能是a cyst或a hematoma,并且越来越大,它必须需要一些其他字符,diagnosis例如biopsy。有一个ache在该领域或的大小lump并没有真正告诉任何东西bad。你应该访问专门clinics几次,并且在某些特定的测试,如走biopsy,CT scan,pcp而ultrasound在此之前,lump变得更加大。
[私人](分类错误。应为[公开]) …
我必须将PDF页面中的文本从缩进中提取到CSV文件中.
PDF教科书的索引页面:

我应该将文本拆分为类和子类型层次结构以及页码.例如,在图像中, Application server是类,Apache Tomcat是页码275中的子类
这是CSV的预期输出:

我使用Tika解析器来解析PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类.
这是解析文本的样子:

任何人都可以建议我这个要求的正确方法吗?
Google 的BERT在下一句预测任务上进行了预训练,但我想知道是否可以在新数据上调用下一句预测功能。
这个想法是:给定句子 A 和给定句子 B,我想要一个关于句子 B 是否跟随句子 A 的概率标签。BERT 是在大量数据上预训练的,所以我希望在新句子上使用下一个句子预测数据。我似乎无法弄清楚是否可以调用下一句预测函数,如果可以,如何调用。谢谢你的帮助!
nlp reproducible-research deep-learning tensorflow natural-language-processing
我是机器学习和Tensorflow的新手,因为我不知道python所以我决定使用那里的javascript版本(可能更像是一个包装器).
该问题是我试图建立一个处理自然语言的模型.因此,第一步是将文本标记化,以便将数据提供给模型.我做了很多研究,但大多数都使用的是使用方法的张量流的python版本:tf.keras.preprocessing.text.Tokenizer我在tensorflow.js中找不到类似的东西.我陷入了这一步,不知道如何将文本传输到可以提供给模型的矢量.请帮忙 :)
javascript machine-learning tensorflow.js natural-language-processing
我想要一种有效的 Pythonic 方法来计算文本中的相邻单词对。高效,因为它需要处理更大的数据集。
计数的方式也很重要。
考虑这个简化的例子:
words_list = "apple banana banana apple".split()
Run Code Online (Sandbox Code Playgroud)
我可以使用以下方法创建相邻对:
word_pair_list = zip(words_list[:-1], words_list[1:])
Run Code Online (Sandbox Code Playgroud)
然后我可以使用 Python 计算它们
word_pair_ctr = collections.Counter(word_pair_list)
Run Code Online (Sandbox Code Playgroud)
这给了我
(('apple', 'banana'), 1)
(('banana', 'banana'), 1)
(('banana', 'apple'), 1)
Run Code Online (Sandbox Code Playgroud)
请注意,'apple'和'apple'不是相邻对。
但我希望对的顺序不计算在内。这意味着('apple', 'banana')和('banana', 'apple')应该被认为是相同的,并且计数应该是
(('apple', 'banana'), 2)
(('banana', 'banana'), 1)
Run Code Online (Sandbox Code Playgroud)
我找不到一种不需要我访问单词列表中的每个项目的 Pythonic 方法,这对于较大的文本来说效率很低。
我也很高兴使用常见的 scipy、numpy 和 pandas 作为库。
我想用新实体更新模型。我正在加载“pt”NER 模型,并尝试更新它。在做任何事情之前,我尝试了这句话:“meu nome é Mário e hoje eu vou para academia”。(英文中这句话是“我的名字是马里奥,今天我要去健身房。在整个过程之前我得到了这个:
Entities [('Mário', 'PER')]
Tokens [('meu', '', 2), ('nome', '', 2), ('é', '', 2), ('Mário', 'PER', 3), ('e', '', 2), ('hoje', '', 2), ('eu', '', 2), ('vou', '', 2), ('pra', '', 2), ('academia', '', 2)]
Run Code Online (Sandbox Code Playgroud)
好的,马里奥是一个名字,它是正确的。但我希望模型将“hoje(今天)”识别为 DATE,然后我运行了下面的脚本。
运行脚本后,我尝试了相同的设置并得到了这个:
Entities [('hoje', 'DATE')]
Tokens [('meu', '', 2), ('nome', '', 2), ('é', '', 2), ('Mário', '', 2), ('e', '', 2), ('hoje', 'DATE', 3), ('eu', '', 2), ('vou', '', 2), ('pra', '', 2), ('academia', …Run Code Online (Sandbox Code Playgroud) python nlp machine-learning spacy natural-language-processing
我计划根据手头的数据(由人们键入的注释)从头开始训练ELMo或Bert模型。我现在拥有的数据都是由不同的人键入的。拼写,格式和句子不一致都存在问题。阅读ELMo和Bert的论文后,我知道这两个模型都使用了很多类似Wikipedia的句子。我还没有找到Emlo或Bert模型的任何经过处理的训练样本或任何预处理教程。我的问题是:
nlp machine-learning pre-trained-model transfer-learning natural-language-processing
我希望能够找到具有相同含义的句子.我有一个查询语句,以及数百万个其他句子的长列表.句子是单词,或称为符号的特殊类型的单词,它只是一种象征着被讨论的对象的单词.
例如,我的查询语句是:
示例:将(x)添加到(y)给出(z)
可能存在我的数据库中已存在的句子列表,例如:1.(x)和(y)的总和是(z)2.(x)加(y)等于(z)3.(x)乘以by(y)不等于(z)4.(z)是(x)和(y)的总和
该示例应匹配我的数据库1,2,4中的句子,但不匹配3.此外,句子匹配应该有一些权重.
它不仅仅是数学句子,它可以根据单词的含义与任何其他句子进行比较.我需要一些方法来对句子和许多其他句子进行比较,以找到具有封闭相对含义的句子.即基于其含义的句子之间的映射.
谢谢!(标签是语言设计,因为我无法创建任何新标签)
我想知道unigram,bigram和posgram之间的含义和区别是什么。我在互联网上搜索过,但找不到全面的答案。任何帮助将不胜感激。
作为练习,我只需要使用密集层来执行文本分类。我想利用词嵌入,问题是数据集是 3D 的(样本、句子的词、嵌入维度)。我可以将 3D 数据集输入密集层吗?
谢谢
text-classification keras word-embedding keras-layer natural-language-processing
嗨,我被打到这里了,请帮助我解决这个问题
我收到此错误
TypeError: language_model_learner() missing 1 required positional argument: 'arch'
Run Code Online (Sandbox Code Playgroud)
我正在关注本教程:-https: //www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/
natural-language-processing ×13
nlp ×8
python ×7
tensorflow ×2
javascript ×1
keras ×1
keras-layer ×1
n-gram ×1
ner ×1
pandas ×1
pdfminer ×1
pdftotext ×1
python-3.x ×1
pytorch ×1
spacy ×1