我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例.50%用作测试样品,50%用作火车样品,从火车样品中提取特征并使用Weka分级器进行分类,但我的预测准确度约为70-75%.
任何人都可以建议一些其他数据集可以帮助我增加结果 - 我使用unigram,bigram和POStags作为我的功能.
我想做大规模的数据挖掘.为此,我需要一个快速爬虫.我只需要下载一个网页,提取链接并递归地跟踪它们,但不要访问相同的网址两次.基本上,我想避免循环.
我已经在python中编写了一个爬虫,但它太慢了.我无法用它浸透100Mbit线.最高速度约为40 urls/sec.由于某种原因,很难获得更好的结果.这似乎是python的多线程/套接字的一个问题.我也遇到了python的gargabe收集器的问题,但这是可以解决的.CPU不是btw的瓶颈.
那么,我应该使用什么来编写尽可能快的爬虫,以及在爬行时避免循环的最佳解决方案是什么?
编辑:解决方案是组合multiprocessing和threading模块.为每个进程生成多个进程的多个进程,以获得最佳效果.在单个进程中生成多个线程是无效的,只有一个线程的多个进程会消耗太多内存.
我有一个包含公司名称的数据字段,例如
company <- c("Microsoft", "Apple", "Cloudera", "Ford")
> company
Company
1 Microsoft
2 Apple
3 Cloudera
4 Ford
Run Code Online (Sandbox Code Playgroud)
等等.
该软件包tm.plugin.webmining允许您从Yahoo!查询数据 基于股票代码的财务:
require(tm.plugin.webmining)
results <- WebCorpus(YahooFinanceSource("MSFT"))
Run Code Online (Sandbox Code Playgroud)
我错过了中间步骤.如何根据公司名称以编程方式查询票证符号?
我想抓取并将一些网页保存为HTML.比如说,爬进数百个热门网站,只需保存他们的前台和"关于"页面.
我已经查看了很多问题,但是没有从网页抓取或网页抓取问题中找到答案.
我应该使用什么库或工具来构建解决方案?或者甚至有一些现有的工具可以处理这个?
我正在开发一个java应用程序,它可以从不同的网页中获取文本信息,并将其汇总成一个页面.例如,假设我在不同的网页上有新闻,如印度教,印度时报,政治家等.现在我的应用程序应该从这些页面的每一个中提取重要点,并将它们作为单个新闻组合在一起.应用程序基于Web内容挖掘的概念.作为该领域的初学者,我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步.
所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接,广告,无用图像等.我的问题是我该怎么做?请给我一些很好的教程,解释使用Web内容挖掘实现这种应用程序.或者至少给我一些提示如何实现它?
web-mining ×5
java ×2
python ×2
web-crawler ×2
web-scraping ×2
dataset ×1
r ×1
text-mining ×1
tm ×1
web ×1