嗨上周Facebook宣布Fasttext,这是一种将单词分类为桶的方法.Latent Dirichlet Allocation也是进行主题建模的另一种方式.我的问题是,有没有人在这2个中对pro和con进行任何比较.
我没有尝试过Fasttext,但根据我的经验,这里有很少的专业版和LDA版
临
迭代模型,支持Apache spark
接受文档语料库并进行主题建模.
不仅可以找出文档的内容,还可以找到相关文档
Apache spark社区不断为此做出贡献.早些时候,他们现在在ml库上使用了mllib
精读
需要很好地定义停用词.它们必须与文档的上下文相关.例如:"文档"是一个具有高频率出现的单词,可能位于推荐主题的图表之上,但它可能相关也可能不相关,因此我们需要更新该禁止词.
有时候分类可能无关紧要.在下面的例子中,很难推断出这个桶正在谈论什么
话题:
期限:纪律
期限:学科
期限:notestable
期限:中标
期限:途径
期限:chapterclosingtable
期限:元程序
期限:突破
期限:优
期限:救援
如果有人在Fasttext中做过研究,请您根据自己的学习情况进行更新?
我在向多个收件人发送邮件时遇到问题。
我的脚本是
var SendGrid = require('sendgrid').SendGrid;
var sendgrid = new SendGrid('<<username>>', '<<password>>');
sendgrid.send({
to: 'nabababa@gmail.com',
from: 'sengupta.nabarun@gmail.com',
bcc: ["sengupta.nabarun@gmail.com","sengupta_nabarun@rediffmail.com"],
Run Code Online (Sandbox Code Playgroud)
我在这里有两个问题
与上述两个查询相关的解决方案确实会有所帮助
谢谢纳巴伦
我正在尝试在JSON文件上创建LDA模型.
使用JSON文件创建spark上下文:
import org.apache.spark.sql.SparkSession
val sparkSession = SparkSession.builder
.master("local")
.appName("my-spark-app")
.config("spark.some.config.option", "config-value")
.getOrCreate()
val df = spark.read.json("dbfs:/mnt/JSON6/JSON/sampleDoc.txt")
Run Code Online (Sandbox Code Playgroud)
显示df应该显示DataFrame
display(df)
Run Code Online (Sandbox Code Playgroud)
对文本进行标记
import org.apache.spark.ml.feature.RegexTokenizer
// Set params for RegexTokenizer
val tokenizer = new RegexTokenizer()
.setPattern("[\\W_]+")
.setMinTokenLength(4) // Filter away tokens with length < 4
.setInputCol("text")
.setOutputCol("tokens")
// Tokenize document
val tokenized_df = tokenizer.transform(df)
Run Code Online (Sandbox Code Playgroud)
这应该显示 tokenized_df
display(tokenized_df)
Run Code Online (Sandbox Code Playgroud)
得到 stopwords
%sh wget http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words > -O /tmp/stopwords
Run Code Online (Sandbox Code Playgroud)
可选:将停用词复制到tmp文件夹
%fs cp file:/tmp/stopwords dbfs:/tmp/stopwords
Run Code Online (Sandbox Code Playgroud)
收集所有的 stopwords
val stopwords = sc.textFile("/tmp/stopwords").collect()
Run Code Online (Sandbox Code Playgroud)
过滤掉了 stopwords
import org.apache.spark.ml.feature.StopWordsRemover …Run Code Online (Sandbox Code Playgroud) scala apache-spark apache-spark-sql apache-spark-ml apache-spark-mllib