小编sri*_*ran的帖子

我如何使用 Glove 词嵌入构建模型并使用 R 中的 text2vec 预测测试数据

我正在使用 GloVe 词嵌入将文本数据的分类模型分为两类（即将每个评论分为两类）。我有两列，一列包含文本数据（评论），另一列是二进制目标变量（评论是否可操作）。我能够使用 text2vec 文档中的以下代码为文本数据生成 Glove 词嵌入。

glove_model <- GlobalVectors$new(word_vectors_size = 50,vocabulary = 
glove_pruned_vocab,x_max = 20L)
#fit model and get word vectors
word_vectors_main <- glove_model$fit_transform(glove_tcm,n_iter = 20,convergence_tol=-1)
word_vectors_context <- glove_model$components
word_vectors <- word_vectors_main+t(word_vectors_context)

Run Code Online (Sandbox Code Playgroud)

如何构建模型并生成对测试数据的预测？

r text-classification word2vec word-embedding text2vec

sri*_*ran

2018 03-20

5
推荐指数

1
解决办法

1891
查看次数

如何重命名 Azure 数据湖上保存的文件

我尝试使用数据块中的 scala 合并 Datalake 中的两个文件，并使用以下代码将其保存回 Datalake：

val df =sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("adl://xxxxxxxx/Test/CSV") 
df.coalesce(1).write.
              format("com.databricks.spark.csv").
              mode("overwrite").
              option("header", "true").
save("adl://xxxxxxxx/Test/CSV/final_data.csv")

Run Code Online (Sandbox Code Playgroud)

但是，文件 Final_data.csv 保存为目录，而不是包含多个文件的文件，并且实际的 .csv 文件保存为“part-00000-tid-dddddddddd-xxxxxxxxxx.csv”。

如何重命名该文件以便将其移动到另一个目录？

scala azure-data-lake azure-databricks

sri*_*ran

lucky-day

3
推荐指数

1
解决办法

2万
查看次数

我如何在R中的多个条件下使用排名函数Row_number

这是我的虚拟数据集。

ID        Order       Case         Date_created      
123456   25800265        1     2018-06-27 07:40:23 
123456   25800265        1     2018-06-25 05:29:23
123456   25800265        0     2018-07-26 06:16:28
789454   25906588        1     2018-07-12 05:59:50
789454   25906588        0     2018-07-12 07:41:29
789454   25906588        0     2018-07-10 05:43:45
789454   25906588        0     2018-07-09 05:59:26
789454   25906588        0     2018-07-05 10:39:45
287541   32140567        0     2018-07-12 07:41:29
287541   32140567        0     2018-07-10 05:43:45
287541   32140567        0     2018-07-09 05:59:26
287541   32140567        0     2018-07-05 10:39:45

Run Code Online (Sandbox Code Playgroud)

根据以下条件，每个订单仅需要一条记录。当“案例”中的订单同时包含0和1时，返回Case = 1的记录。如果存在多个记录（其中Case = 1），则获取旧的Date_created记录。如果订单只有Case = 0，则返回具有最早的Date_created日期的记录。

即

ID        Order       Case         Date_created        
123456   25800265        1 …

Run Code Online (Sandbox Code Playgroud)

r dplyr

sri*_*ran

2018 12-27

2
推荐指数

1
解决办法

111
查看次数

标签统计

r ×2

azure-data-lake ×1

azure-databricks ×1

dplyr ×1

scala ×1

text-classification ×1

text2vec ×1

word-embedding ×1

word2vec ×1

我如何使用 Glove 词嵌入构建模型并使用 R 中的 text2vec 预测测试数据

如何重命名 Azure 数据湖上保存的文件

我如何在R中的多个条件下使用排名函数Row_number

标签 统计

小编sri_ran的帖子

标签统计