我正在考虑一个项目,其中出版物的内容通过该地区人员的相关公开推文得到增强.但我怎么能以编程方式找到相关的推文?我知道生成一个代表自然语言含义的结构几乎是NLP的圣杯,但也许我可以使用一些工具来至少缩小它的范围?
或者,我可以使用hashtags.但这需要代表用户做更多的工作.我对Twitter不是很熟悉 - 大多数人都使用主题标签(即使是较小规模的问题),还是会依赖它们切断大部分数据?
我也有兴趣抓住Facebook状态(当然是获得海报的许可),并且在Facebook上使用标签很少见.
我可以使用简单的关键字搜索粗略地缩小字段,但这更有可能需要人工干预来确定哪些推文实际上应该与内容一起发布.
想法?以前做过吗?
我需要抓住一千个共享相同结构的网站:它们都有菜单,标题,一些文本和评级,就像博客一样.不幸的是,它们的编码方式也有很大不同,有些是手动的,所以我不能重新使用CSS选择器,甚至可能不依赖它们.
我想知道如何自动对它们进行分类并保存我的头发.我的第一个猜测是使用lynx或文本浏览器来获取一些文本块并根据它们的大小对它们进行分类.
你知道一种更好或更复杂的方法吗?
谢谢!
我不确定什么是用于单词关系分类的最佳算法.例如,在诸如"黄色太阳"之类的句子的情况下,黄色和太阳之间存在关系.到目前为止我所考虑的机器学习技术是贝叶斯统计,粗糙集,模糊逻辑,隐马尔可夫模型和人工神经网络.
有什么建议吗?
谢谢 :)
我们有一个基于生产网络的产品,允许用户对商品的未来价值(或需求)做出预测,历史数据包含大约10万个例子,每个例子有大约5个参数;
考虑一类称为谓词的数据:
prediction {
id: int
predictor: int
predictionDate: date
predictedProductId: int
predictedDirection: byte (0 for decrease, 1 for increase)
valueAtPrediciton: float
}
Run Code Online (Sandbox Code Playgroud)
以及测量预测结果的配对结果类:
predictionResult {
id: int
valueTenDaysAfterPrediction: float
valueTwentyDaysAfterPrediction: float
valueThirtyDaysAfterPrediction: float
}
Run Code Online (Sandbox Code Playgroud)
我们可以定义一个成功的测试用例,其中如果任何两个未来的值检查点在预测时考虑方向和值时是有利的.
success(p: prediction, r: predictionResult): bool =
count: int
count = 0
// value is predicted to fall
if p.predictedDirection = 0 then
if p.valueAtPrediciton > r.valueTenDaysAfterPrediction then count = count + 1
if p.valueAtPrediciton > r.valueTwentyDaysAfterPrediction then count = count + 1
if p.valueAtPrediciton …
Run Code Online (Sandbox Code Playgroud) pattern-recognition classification machine-learning data-mining
nlp ×2
data-mining ×1
facebook ×1
linguistics ×1
social-media ×1
twitter ×1
web-crawler ×1
web-scraping ×1