标签: web-mining

情绪分析的良好数据集？

我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例.50%用作测试样品,50%用作火车样品,从火车样品中提取特征并使用Weka分级器进行分类,但我的预测准确度约为70-75%.

任何人都可以建议一些其他数据集可以帮助我增加结果 - 我使用unigram,bigram和POStags作为我的功能.

dataset web-mining sentiment-analysis

use*_*562

2017 07-25

16
推荐指数

1
解决办法

4万
查看次数

快速的互联网爬虫

我想做大规模的数据挖掘.为此,我需要一个快速爬虫.我只需要下载一个网页,提取链接并递归地跟踪它们,但不要访问相同的网址两次.基本上,我想避免循环.

我已经在python中编写了一个爬虫,但它太慢了.我无法用它浸透100Mbit线.最高速度约为40 urls/sec.由于某种原因,很难获得更好的结果.这似乎是python的多线程/套接字的一个问题.我也遇到了python的gargabe收集器的问题,但这是可以解决的.CPU不是btw的瓶颈.

那么,我应该使用什么来编写尽可能快的爬虫,以及在爬行时避免循环的最佳解决方案是什么？

编辑:解决方案是组合multiprocessing和threading模块.为每个进程生成多个进程的多个进程,以获得最佳效果.在单个进程中生成多个线程是无效的,只有一个线程的多个进程会消耗太多内存.

python multithreading web-crawler web-mining

pbp*_*pbp

2012 10-14

8
推荐指数

2
解决办法

6523
查看次数

以编程方式在R中查找股票代码

我有一个包含公司名称的数据字段,例如

company <- c("Microsoft", "Apple", "Cloudera", "Ford")
> company

  Company
1 Microsoft
2 Apple
3 Cloudera
4 Ford

Run Code Online (Sandbox Code Playgroud)

等等.

该软件包tm.plugin.webmining允许您从Yahoo!查询数据基于股票代码的财务:

require(tm.plugin.webmining)
results <- WebCorpus(YahooFinanceSource("MSFT"))

Run Code Online (Sandbox Code Playgroud)

我错过了中间步骤.如何根据公司名称以编程方式查询票证符号？

r web-mining tm

Hac*_*k-R

2014 09-03

2
推荐指数

1
解决办法

2377
查看次数

Web挖掘或抓取或爬行？我应该使用什么工具/库？

我想抓取并将一些网页保存为HTML.比如说,爬进数百个热门网站,只需保存他们的前台和"关于"页面.

我已经查看了很多问题,但是没有从网页抓取或网页抓取问题中找到答案.

我应该使用什么库或工具来构建解决方案？或者甚至有一些现有的工具可以处理这个？

python java web-crawler web-scraping web-mining

Fla*_*ake

lucky-day

1
推荐指数

1
解决办法

4026
查看次数

如何从网页中提取文本内容？

我正在开发一个java应用程序,它可以从不同的网页中获取文本信息,并将其汇总成一个页面.例如,假设我在不同的网页上有新闻,如印度教,印度时报,政治家等.现在我的应用程序应该从这些页面的每一个中提取重要点,并将它们作为单个新闻组合在一起.应用程序基于Web内容挖掘的概念.作为该领域的初学者,我无法理解从哪里开始我已经通过研究论文解释了噪声去除作为建立这个应用程序的第一步.

所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接,广告,无用图像等.我的问题是我该怎么做？请给我一些很好的教程,解释使用Web内容挖掘实现这种应用程序.或者至少给我一些提示如何实现它？

java text-mining web-scraping web-mining web

dar*_*dow

2012 02-10

0
推荐指数

1
解决办法

2827
查看次数