小编Nab*_*abs的帖子

fasttext和LDA之间的比较

嗨上周Facebook宣布Fasttext,这是一种将单词分类为桶的方法.Latent Dirichlet Allocation也是进行主题建模的另一种方式.我的问题是,有没有人在这2个中对pro和con进行任何比较.

我没有尝试过Fasttext,但根据我的经验,这里有很少的专业版和LDA版

  1. 迭代模型,支持Apache spark

  2. 接受文档语料库并进行主题建模.

  3. 不仅可以找出文档的内容,还可以找到相关文档

  4. Apache spark社区不断为此做出贡献.早些时候,他们现在在ml库上使用了mllib

精读

  1. 需要很好地定义停用词.它们必须与文档的上下文相关.例如:"文档"是一个具有高频率出现的单词,可能位于推荐主题的图表之上,但它可能相关也可能不相关,因此我们需要更新该禁止词.

  2. 有时候分类可能无关紧要.在下面的例子中,很难推断出这个桶正在谈论什么

话题:

  1. 期限:纪律

  2. 期限:学科

  3. 期限:notestable

  4. 期限:中标

  5. 期限:途径

  6. 期限:chapterclosingtable

  7. 期限:元程序

  8. 期限:突破

  9. 期限:优

  10. 期限:救援

如果有人在Fasttext中做过研究,请您根据自己的学习情况进行更新?

facebook scala apache-spark

15
推荐指数
1
解决办法
2066
查看次数

NodeJS Sendgrid 向多个收件人发送电子邮件的问题

我在向多个收件人发送邮件时遇到问题。

我的脚本是

var SendGrid = require('sendgrid').SendGrid;
var sendgrid = new SendGrid('<<username>>', '<<password>>');      
    sendgrid.send({
    to: 'nabababa@gmail.com',   
from: 'sengupta.nabarun@gmail.com',
bcc: ["sengupta.nabarun@gmail.com","sengupta_nabarun@rediffmail.com"],
Run Code Online (Sandbox Code Playgroud)

我在这里有两个问题

  1. 我可以列出一组收件人吗?
  2. 如何在密件抄送列表中获取一组收件人?

与上述两个查询相关的解决方案确实会有所帮助

谢谢纳巴伦

node.js sendgrid

4
推荐指数
2
解决办法
3945
查看次数

在Spark 2.0中访问向量列时出现MatchError

我正在尝试在JSON文件上创建LDA模型.

使用JSON文件创建spark上下文:

import org.apache.spark.sql.SparkSession

val sparkSession = SparkSession.builder
  .master("local")
  .appName("my-spark-app")
  .config("spark.some.config.option", "config-value")
  .getOrCreate()

 val df = spark.read.json("dbfs:/mnt/JSON6/JSON/sampleDoc.txt")
Run Code Online (Sandbox Code Playgroud)

显示df应该显示DataFrame

display(df)
Run Code Online (Sandbox Code Playgroud)

对文本进行标记

import org.apache.spark.ml.feature.RegexTokenizer

// Set params for RegexTokenizer
val tokenizer = new RegexTokenizer()
                .setPattern("[\\W_]+")
                .setMinTokenLength(4) // Filter away tokens with length < 4
                .setInputCol("text")
                .setOutputCol("tokens")

// Tokenize document
val tokenized_df = tokenizer.transform(df)
Run Code Online (Sandbox Code Playgroud)

这应该显示 tokenized_df

display(tokenized_df)
Run Code Online (Sandbox Code Playgroud)

得到 stopwords

%sh wget http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words > -O /tmp/stopwords
Run Code Online (Sandbox Code Playgroud)

可选:将停用词复制到tmp文件夹

%fs cp file:/tmp/stopwords dbfs:/tmp/stopwords
Run Code Online (Sandbox Code Playgroud)

收集所有的 stopwords

val stopwords = sc.textFile("/tmp/stopwords").collect()
Run Code Online (Sandbox Code Playgroud)

过滤掉了 stopwords

 import org.apache.spark.ml.feature.StopWordsRemover …
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql apache-spark-ml apache-spark-mllib

3
推荐指数
1
解决办法
3926
查看次数