我正在使用 GloVe 词嵌入将文本数据的分类模型分为两类(即将每个评论分为两类)。我有两列,一列包含文本数据(评论),另一列是二进制目标变量(评论是否可操作)。我能够使用 text2vec 文档中的以下代码为文本数据生成 Glove 词嵌入。
glove_model <- GlobalVectors$new(word_vectors_size = 50,vocabulary =
glove_pruned_vocab,x_max = 20L)
#fit model and get word vectors
word_vectors_main <- glove_model$fit_transform(glove_tcm,n_iter = 20,convergence_tol=-1)
word_vectors_context <- glove_model$components
word_vectors <- word_vectors_main+t(word_vectors_context)
Run Code Online (Sandbox Code Playgroud)
如何构建模型并生成对测试数据的预测?
我尝试使用数据块中的 scala 合并 Datalake 中的两个文件,并使用以下代码将其保存回 Datalake:
val df =sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("adl://xxxxxxxx/Test/CSV")
df.coalesce(1).write.
format("com.databricks.spark.csv").
mode("overwrite").
option("header", "true").
save("adl://xxxxxxxx/Test/CSV/final_data.csv")
Run Code Online (Sandbox Code Playgroud)
但是,文件 Final_data.csv 保存为目录,而不是包含多个文件的文件,并且实际的 .csv 文件保存为“part-00000-tid-dddddddddd-xxxxxxxxxx.csv”。
如何重命名该文件以便将其移动到另一个目录?
这是我的虚拟数据集。
ID Order Case Date_created
123456 25800265 1 2018-06-27 07:40:23
123456 25800265 1 2018-06-25 05:29:23
123456 25800265 0 2018-07-26 06:16:28
789454 25906588 1 2018-07-12 05:59:50
789454 25906588 0 2018-07-12 07:41:29
789454 25906588 0 2018-07-10 05:43:45
789454 25906588 0 2018-07-09 05:59:26
789454 25906588 0 2018-07-05 10:39:45
287541 32140567 0 2018-07-12 07:41:29
287541 32140567 0 2018-07-10 05:43:45
287541 32140567 0 2018-07-09 05:59:26
287541 32140567 0 2018-07-05 10:39:45
Run Code Online (Sandbox Code Playgroud)
根据以下条件,每个订单仅需要一条记录。当“案例”中的订单同时包含0和1时,返回Case = 1的记录。如果存在多个记录(其中Case = 1),则获取旧的Date_created记录。如果订单只有Case = 0,则返回具有最早的Date_created日期的记录。
即
ID Order Case Date_created
123456 25800265 1 …Run Code Online (Sandbox Code Playgroud)