小编sri*_*ran的帖子

我如何使用 Glove 词嵌入构建模型并使用 R 中的 text2vec 预测测试数据

我正在使用 GloVe 词嵌入将文本数据的分类模型分为两类(即将每个评论分为两类)。我有两列,一列包含文本数据(评论),另一列是二进制目标变量(评论是否可操作)。我能够使用 text2vec 文档中的以下代码为文本数据生成 Glove 词嵌入。

glove_model <- GlobalVectors$new(word_vectors_size = 50,vocabulary = 
glove_pruned_vocab,x_max = 20L)
#fit model and get word vectors
word_vectors_main <- glove_model$fit_transform(glove_tcm,n_iter = 20,convergence_tol=-1)
word_vectors_context <- glove_model$components
word_vectors <- word_vectors_main+t(word_vectors_context)
Run Code Online (Sandbox Code Playgroud)

如何构建模型并生成对测试数据的预测?

r text-classification word2vec word-embedding text2vec

5
推荐指数
1
解决办法
1891
查看次数

如何重命名 Azure 数据湖上保存的文件

我尝试使用数据块中的 scala 合并 Datalake 中的两个文件,并使用以下代码将其保存回 Datalake:

val df =sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("adl://xxxxxxxx/Test/CSV") 
df.coalesce(1).write.
              format("com.databricks.spark.csv").
              mode("overwrite").
              option("header", "true").
save("adl://xxxxxxxx/Test/CSV/final_data.csv")
Run Code Online (Sandbox Code Playgroud)

但是,文件 Final_data.csv 保存为目录,而不是包含多个文件的文件,并且实际的 .csv 文件保存为“part-00000-tid-dddddddddd-xxxxxxxxxx.csv”。

如何重命名该文件以便将其移动到另一个目录?

scala azure-data-lake azure-databricks

3
推荐指数
1
解决办法
2万
查看次数

我如何在R中的多个条件下使用排名函数Row_number

这是我的虚拟数据集。

ID        Order       Case         Date_created      
123456   25800265        1     2018-06-27 07:40:23 
123456   25800265        1     2018-06-25 05:29:23
123456   25800265        0     2018-07-26 06:16:28
789454   25906588        1     2018-07-12 05:59:50
789454   25906588        0     2018-07-12 07:41:29
789454   25906588        0     2018-07-10 05:43:45
789454   25906588        0     2018-07-09 05:59:26
789454   25906588        0     2018-07-05 10:39:45
287541   32140567        0     2018-07-12 07:41:29
287541   32140567        0     2018-07-10 05:43:45
287541   32140567        0     2018-07-09 05:59:26
287541   32140567        0     2018-07-05 10:39:45
Run Code Online (Sandbox Code Playgroud)

根据以下条件,每个订单仅需要一条记录。当“案例”中的订单同时包含0和1时,返回Case = 1的记录。如果存在多个记录(其中Case = 1),则获取旧的Date_created记录。如果订单只有Case = 0,则返回具有最早的Date_created日期的记录。

ID        Order       Case         Date_created        
123456   25800265        1 …
Run Code Online (Sandbox Code Playgroud)

r dplyr

2
推荐指数
1
解决办法
111
查看次数