小编Joh*_*Sig的帖子

在小型自定义语料库上预训练语言模型

我很好奇是否可以在文本生成中使用迁移学习,并在特定类型的文本上重新训练/预训练。

例如,拥有一个预训练的 BERT 模型和一个小的医学(或任何“类型”)文本语料库,创建一个能够生成医学文本的语言模型。假设您没有大量的“医学文本”,这就是您必须使用迁移学习的原因。

把它作为一个管道,我会把它描述为:

  1. 使用预训练的 BERT 分词器。
  2. 从我的新文本中获取新标记并将它们添加到现有的预训练语言模型(即 vanilla BERT)中。
  3. 使用组合标记器在自定义语料库上重新训练预训练的 BERT 模型。
  4. 生成与小型自定义语料库中的文本相似的文本。

这听起来很熟悉吗?抱脸可以吗?

deep-learning language-model transfer-learning bert-language-model huggingface-transformers

5
推荐指数
1
解决办法
1672
查看次数

我的c程序打印"内存不足" - 错误,但有很多可用的内存空间

我的程序返回内存错误,而不使用超过1 MB.我在dev-cpp编译器中编写C语言.原来的程序太大了,无法放在这里.这个非常简单的程序适合我:

int main(){int a[520076]; return 0;}

并返回值0.但是,这个:

int main(){int a[520077]; return 0;}

不起作用,原因是记忆.我使用的是Windows 8,但Windows 7中出现了同样的问题.看起来系统对进程可以使用的内存空间进行了限制.也许dev-cpp还可以建立边界吗?

c memory dev-c++

4
推荐指数
1
解决办法
179
查看次数