我一直在使用 JJ Allaire 的指南,在神经网络模型中使用词嵌入进行文本处理(https://jjallaire.github.io/deep-learning-with-r-notebooks/notebooks/6.1-using-word-embeddings.nb .html)。我对模型如何将标记化的单词序列 (x_train) 与使用整个数据集(而不仅仅是训练数据)定义的词嵌入相关联感到困惑。有没有办法概念化单词标记如何映射到单词嵌入?否则,像“king”这样的词如何映射到词嵌入(例如使用 Glove 获得)。我说的是这些代码块之间的关系:
#building model
history <- model %>% fit(
x_train, y_train,
epochs = 20,
batch_size = 32,
validation_data = list(x_val, y_val)
)
#relating model to word embeddings
model <- keras_model_sequential() %>%
layer_embedding(input_dim = max_words, output_dim = embedding_dim,
input_length = maxlen) %>%
layer_flatten() %>%
layer_dense(units = 32, activation = "relu") %>%
layer_dense(units = 1, activation = "sigmoid")
get_layer(model, index = 1) %>%
set_weights(list(embedding_matrix)) %>%
freeze_weights()
Run Code Online (Sandbox Code Playgroud)
来自 x_train 的标记化单词如何链接回 embedding_matrix 中的单词(特别是如果嵌入层是针对所有数据进行训练的)?
我有以下代码,我用百分比而不是比例构建生存曲线。我的生存时间也突破了数十倍。我想从下面的图中删除百分比符号,因为我想将其添加到图的 ylab 标题中。
library(survival)
library(survminer)
data(lung)
fit <- survfit(Surv(time, status) ~sex, data = lung)
ggsurvplot(fit, risk.table = TRUE, axes.offset = FALSE,
break.y = 0.10,
surv.scale = c("percent"),
xlim = c(0, 1050))
Run Code Online (Sandbox Code Playgroud)