向 Huggingface 变压器添加额外的层

Question

向 Huggingface 变压器添加额外的层

kon*_*cov 3 python nlp keras tensorflow huggingface-transformers

我想添加额外的Dense预训练的后层TFDistilBertModel，TFXLNetModel并TFRobertaModelHuggingface模型。我已经看到了如何使用 . 来做到这一点TFBertModel，例如在这个笔记本中：

output = bert_model([input_ids,attention_masks])
output = output[1]
output = tf.keras.layers.Dense(32,activation='relu')(output)

Run Code Online (Sandbox Code Playgroud)

所以，在这里我需要使用输出元组的第二项（即带有索引的项1）BERT。根据该文档 TFBertModel已pooler_output在这个元组指数。但其他三个模型没有pooler_output。

那么，如何为其他三个模型输出添加额外的层？

Answer 1

kon*_*cov 5

It looks like pooler_output is a Roberta and Bert specific output.

但是，而不是使用pooler_output我们可以使用一些hidden_states（这样，不仅最后隐藏状态）所有型号，我们要使用它们，因为报纸报道说hidden_states可以给更高的精度不是只有一个last_hidden_state。

# Import the needed model(Bert, Roberta or DistilBert) with output_hidden_states=True
transformer_model = TFBertForSequenceClassification.from_pretrained('bert-large-cased', output_hidden_states=True)

input_ids = tf.keras.Input(shape=(128, ),dtype='int32')
attention_mask = tf.keras.Input(shape=(128, ), dtype='int32')

transformer = transformer_model([input_ids, attention_mask])    
hidden_states = transformer[1] # get output_hidden_states

hidden_states_size = 4 # count of the last states 
hiddes_states_ind = list(range(-hidden_states_size, 0, 1))

selected_hiddes_states = tf.keras.layers.concatenate(tuple([hidden_states[i] for i in hiddes_states_ind]))

# Now we can use selected_hiddes_states as we want
output = tf.keras.layers.Dense(128, activation='relu')(selected_hiddes_states)
output = tf.keras.layers.Dense(1, activation='sigmoid')(output)
model = tf.keras.models.Model(inputs = [input_ids, attention_mask], outputs = output)
model.compile(tf.keras.optimizers.Adam(lr=1e-4), loss='binary_crossentropy', metrics=['accuracy'])

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，3 月前
查看次数：	3169 次
最近记录：	5 年，1 月前