Amb*_*kar 2 nlp python-3.x keras word-embedding bert-language-model
0
我正在使用 BERT Word Embeddings 进行带有 3 个标签的句子分类任务。我正在使用 Google Colab 进行编码。我的问题是,由于我每次重新启动内核时都必须执行嵌入部分,有没有办法在生成这些词嵌入后保存它?因为,生成这些嵌入需要很多时间。
我用来生成 BERT Word Embeddings 的代码是 -
[get_features(text_list[i]) for text_list[i] in text_list]
Run Code Online (Sandbox Code Playgroud)
在这里,gen_features 是一个函数,它为我的列表 text_list 中的每个 i 返回词嵌入。
我读到将嵌入转换为凹凸不平的张量,然后使用 np.save 可以做到。但我实际上不知道如何编码。
请帮忙。
您可以按照以下步骤将嵌入数据保存到 numpy 文件:
all_embeddings = here_is_your_function_return_all_data()
all_embeddings = np.array(all_embeddings)
np.save('embeddings.npy', all_embeddings)
Run Code Online (Sandbox Code Playgroud)
如果您要保存到 google colab,则可以将其下载到本地计算机。每当您需要它时,只需上传并加载它。
all_embeddings = np.load('embeddings.npy')
Run Code Online (Sandbox Code Playgroud)
就是这样。
顺便说一句,您也可以直接将文件保存到谷歌驱动器。
| 归档时间: |
|
| 查看次数: |
1677 次 |
| 最近记录: |