标签: roberta-language-model

微调 LM 与快速设计 LLM

是否有可能对像 Roberta 这样的小得多的语言模型(例如客户服务数据集)进行微调,并获得与使用部分数据集提示 GPT-4 所获得的结果一样好的结果?

经过微调的 Roberta 模型能否学会以对话方式遵循指令,至少对于这样的小领域?

有没有任何论文或文章可以根据经验探讨这个问题?

language-model roberta roberta-language-model gpt-4 large-language-model

3
推荐指数
1
解决办法
2130
查看次数

为什么在英语上训练并应用于孟加拉语的 BPE 编码不会返回未知标记?

我使用tokenizer = RobertaTokenizerFast.from_pretrained('roberta-base',add_prefix_space=True)在英语数据上训练的 roberta-base 分词器来对孟加拉语进行分词,只是为了看看它的行为如何。当我尝试对孟加拉语字符进行编码时tokenizer.encode('\xe0\xa6\xac\xe0\xa6\xbe'),我得到[0, 1437, 35861, 11582, 35861, 4726, 2]的结果是,即使在英语上进行训练,它也会在词汇表中找到一些与孟加拉语字符匹配的标记。经过进一步探索,我发现这些都是特殊字符['<s>', '\xc4\xa0', '\xc3\xa0\xc2\xa6', '\xc2\xac', '\xc3\xa0\xc2\xa6', '\xc2\xbe', '</s>']。我的问题是为什么会发生这种情况,当应用于新语言时,它不应该输出未知的标记吗?非常感谢任何帮助

\n

huggingface-transformers huggingface-tokenizers roberta-language-model

2
推荐指数
1
解决办法
972
查看次数