标签: language-model

检查语言模型的复杂度

我使用 Keras LSTM 创建了一个语言模型，现在我想评估它是否良好，因此我想计算困惑度。

在 Python 中计算模型的复杂度的最佳方法是什么？

nlp language-model lstm keras perplexity

oku*_*oub

lucky-day

2
推荐指数

1
解决办法

2070
查看次数

BERT + 自定义层训练性能随着时代的推移而下降

我正在训练一个在 BERT 之上使用自定义层的分类模型。在此期间，该模型的训练性能随着纪元的增加而下降（在第一个纪元之后）..我不确定这里要修复什么 - 是模型还是数据？

（对于数据来说，它是二进制标签，并且每个标签的数据点数量是平衡的）。

关于问题可能出在哪里的任何快速提示？以前有人遇到过这个吗？

编辑：事实证明，我使用的 Transformer 库和 tf 版本不匹配。一旦我解决了这个问题，训练表现就很好了！

谢谢！

nlp machine-learning language-model tensorflow

use*_*951

2020 11-04

2
推荐指数

1
解决办法

3351
查看次数

Spacy 手动下载 en_core_web_lg

我正在尝试找到一种下载模型en_core_web_lg ==2.3.1的方法Spacy == 2.3.2。

目前使用

python -m spacy download en_core_web_lg
import spacy
nlp = spacy.load ("en_core_web_lg")

Run Code Online (Sandbox Code Playgroud)

model file or directory是否可以直接从下载的文件夹中下载load the model。

nlp language-model spacy spacy-3

vik*_*kky

lucky-day

2
推荐指数

1
解决办法

1万
查看次数

使用BERT提取唯一单词的特征

我正在使用BERT对某个单词的特征进行提取，因为该单词出现在文本中，但是看来bert的官方github（https://github.com/google-research/bert）中的当前实现只能计算所有单词的特征在文本中，这会占用太多资源。是否有可能对此目的进行调整？谢谢！！

python nlp language-model tensorflow

Rod*_*rez

lucky-day

1
推荐指数

1
解决办法

609
查看次数

Bert 词嵌入的微调

我想加载一个预先训练的 Bert 模型并对其进行微调，特别是使用自定义数据集的模型的词嵌入。任务是使用所选单词的词嵌入进行进一步分析。值得一提的是，该数据集由推文组成，没有标签。因此，我使用了 BertForMaskedLM 模型。

此任务可以使用输入 ID（标记化推文）作为标签吗？我没有标签。只有按随机顺序排列的推文。

从这一点开始，我展示我编写的代码：

首先，我清除了数据集中的表情符号、非 ASCII 字符等，如以下链接（2.3 部分）所述： https ://www.kaggle.com/jaskaransingh/bert-fine-tuning-with-pytorch

二、微调过程的代码：

import torch

device = torch.device('cuda') if torch.cuda.is_available() else torch.device('cpu')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

model = BertForMaskedLM.from_pretrained('bert-base-uncased')

model.to(device)
model.train()

lr = 1e-2

optimizer = AdamW(model.parameters(), lr=lr, correct_bias=False)
max_len = 82
chunk_size = 20
epochs = 20

for epoch in range(epochs):
    epoch_losses = []
    for j, batch in enumerate(pd.read_csv(path + file_name, chunksize=chunk_size)):
        tweets = batch['content_cleaned'].tolist()
    
        encoded_dict = tokenizer.batch_encode_plus(
                            tweets,                      # Sentence to encode.
                            add_special_tokens = True, # Add …

Run Code Online (Sandbox Code Playgroud)

python language-model word-embedding pytorch bert-language-model

Avi*_*ade

lucky-day

1
推荐指数

1
解决办法

7332
查看次数

OpenAI 微调 API：为什么我要使用 LlamaIndex 或 LangChain 而不是微调模型？

我刚刚开始使用法学硕士，特别是 OpenAI 和其他 OSS 模型。有很多关于使用 LlamaIndex 创建所有文档的存储然后查询它们的指南。我用一些示例文档进行了尝试，但发现每个查询很快就会变得非常昂贵。我想我使用了 50 页的 PDF 文档，摘要查询每次查询花费了大约 1.5 美元。我看到有很多令牌被发送，所以我假设它为每个查询发送整个文档。考虑到有人可能想要使用数以千万计的记录，我看不出像 LlamaIndex 这样的东西如何能够以经济高效的方式真正发挥作用。

另一方面，我看到 OpenAI 允许你训练 ChatGPT 模型。或者使用其他经过定制培训的法学硕士来查询您自己的数据不是更便宜、更有效吗？我为什么要设置 LlamaIndex？

language-model openai-api chatgpt-api llama-index langchain

Cur*_*ful

2024 01-17

1
推荐指数

1
解决办法

3140
查看次数