小编Nab*_*abs的帖子

fasttext和LDA之间的比较

嗨上周Facebook宣布Fasttext,这是一种将单词分类为桶的方法.Latent Dirichlet Allocation也是进行主题建模的另一种方式.我的问题是,有没有人在这2个中对pro和con进行任何比较.

我没有尝试过Fasttext,但根据我的经验,这里有很少的专业版和LDA版

临

迭代模型,支持Apache spark
接受文档语料库并进行主题建模.
不仅可以找出文档的内容,还可以找到相关文档
Apache spark社区不断为此做出贡献.早些时候,他们现在在ml库上使用了mllib

精读

需要很好地定义停用词.它们必须与文档的上下文相关.例如:"文档"是一个具有高频率出现的单词,可能位于推荐主题的图表之上,但它可能相关也可能不相关,因此我们需要更新该禁止词.
有时候分类可能无关紧要.在下面的例子中,很难推断出这个桶正在谈论什么

话题:

期限:纪律
期限:学科
期限:notestable
期限:中标
期限:途径
期限:chapterclosingtable
期限:元程序
期限:突破
期限:优
期限:救援

如果有人在Fasttext中做过研究,请您根据自己的学习情况进行更新？

facebook scala apache-spark

Nab*_*abs

lucky-day

15
推荐指数

1
解决办法

2066
查看次数

NodeJS Sendgrid 向多个收件人发送电子邮件的问题

我在向多个收件人发送邮件时遇到问题。

我的脚本是

var SendGrid = require('sendgrid').SendGrid;
var sendgrid = new SendGrid('<<username>>', '<<password>>');      
    sendgrid.send({
    to: 'nabababa@gmail.com',   
from: 'sengupta.nabarun@gmail.com',
bcc: ["sengupta.nabarun@gmail.com","sengupta_nabarun@rediffmail.com"],

Run Code Online (Sandbox Code Playgroud)

我在这里有两个问题

我可以列出一组收件人吗？
如何在密件抄送列表中获取一组收件人？

与上述两个查询相关的解决方案确实会有所帮助

谢谢纳巴伦

node.js sendgrid

Nab*_*abs

2020 01-05

4
推荐指数

2
解决办法

3945
查看次数

在Spark 2.0中访问向量列时出现MatchError

我正在尝试在JSON文件上创建LDA模型.

使用JSON文件创建spark上下文:

import org.apache.spark.sql.SparkSession

val sparkSession = SparkSession.builder
  .master("local")
  .appName("my-spark-app")
  .config("spark.some.config.option", "config-value")
  .getOrCreate()

 val df = spark.read.json("dbfs:/mnt/JSON6/JSON/sampleDoc.txt")

Run Code Online (Sandbox Code Playgroud)

显示df应该显示DataFrame

display(df)

Run Code Online (Sandbox Code Playgroud)

对文本进行标记

import org.apache.spark.ml.feature.RegexTokenizer

// Set params for RegexTokenizer
val tokenizer = new RegexTokenizer()
                .setPattern("[\\W_]+")
                .setMinTokenLength(4) // Filter away tokens with length < 4
                .setInputCol("text")
                .setOutputCol("tokens")

// Tokenize document
val tokenized_df = tokenizer.transform(df)

Run Code Online (Sandbox Code Playgroud)

这应该显示 tokenized_df

display(tokenized_df)

Run Code Online (Sandbox Code Playgroud)

得到 stopwords

%sh wget http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words > -O /tmp/stopwords

Run Code Online (Sandbox Code Playgroud)

可选:将停用词复制到tmp文件夹

%fs cp file:/tmp/stopwords dbfs:/tmp/stopwords

Run Code Online (Sandbox Code Playgroud)

收集所有的 stopwords

val stopwords = sc.textFile("/tmp/stopwords").collect()

Run Code Online (Sandbox Code Playgroud)

过滤掉了 stopwords

 import org.apache.spark.ml.feature.StopWordsRemover …

Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql apache-spark-ml apache-spark-mllib

Nab*_*abs

2017 08-20

3
推荐指数

1
解决办法

3926
查看次数

标签统计

apache-spark ×2

scala ×2

apache-spark-ml ×1

apache-spark-mllib ×1

apache-spark-sql ×1

facebook ×1

node.js ×1

sendgrid ×1

fasttext和LDA之间的比较

NodeJS Sendgrid 向多个收件人发送电子邮件的问题

在Spark 2.0中访问向量列时出现MatchError

标签 统计

小编Nab_abs的帖子

标签统计