问题列表 - 第38222页

网页抓取,屏幕抓取,数据挖掘技巧?

我正在开发一个项目,我需要做很多屏幕抓取才能尽快获得大量数据.我想知道是否有人知道任何好的API或资源来帮助我.

顺便说一句,我正在使用java.

这是我的工作流程到目前为止:

  1. 连接到网站(使用Apache的HTTPComponents)
  2. 网站包含一个部分,其中包含一些我需要访问的链接(使用内置的java HTML解析器来确定我需要访问的所有链接是什么,这是烦人且杂乱的代码)
  3. 访问我找到的所有链接
  4. 对于我访问的每个链接,我需要提取更多数据,分布在多个页面上,因此我可能需要访问更多链接

思考:

  • 有没有人知道任何更高级别/更智能的HTML解析器比内置的java解析器?
  • 基本上它是深度优先搜索.我想我想在某个时候做这个多线程,所以我可以并行访问其中的一些链接.
  • 也许我真正想要的是一个多线程网络爬行库

如果你还没弄明白,这是我第一次搞乱这个问题,所以我很难说清楚我的需求是什么.我非常感谢你们之前做过这些事的人的任何意见.

java screen-scraping data-mining html-parsing web-scraping

5
推荐指数
1
解决办法
2万
查看次数

隐藏轴标签

我试图在第一个子图上隐藏轴标签211.我想标记图形,而不仅仅是一个子图(参考:"Isub事件特征").如何控制字体属性,如大小,字体,颜色?

f = Figure()

vdsvgsPlot = f.add_subplot(211)
vdsvgsPlot.plot(theLister()[3],theLister()[0])
vdsvgsPlot.plot(theLister()[3],theLister()[1])

isubPlot = f.add_subplot(212)
isubPlot.plot(theLister()[3],theLister()[2])

plotCanvas = FigureCanvasTkAgg(f, master)
toolbar = NavigationToolbar2TkAgg(plotCanvas, master)

plotCanvas.get_tk_widget().pack()
Run Code Online (Sandbox Code Playgroud)

先感谢您.

python tkinter matplotlib

36
推荐指数
2
解决办法
6万
查看次数

退出整个程序时python线程异常错误

嗨,大家好,

我正在使用 python 2.4.3 和 wxpython 开发 GUI。一切正常,除非我退出主程序(关闭 GUI 的主窗口)。奇怪的是,有时有这样的错误,有时根本没有错误。虽然我从 python 邮件列表中发现了相同的错误报告(链接是http://bugs.python.org/issue1722344,我不确定我的情况是否与这个相同)。我不知道它最终是如何解决的,我应该怎么做才能克服这个问题。

来自控制台的错误消息如下。

Exception in thread Thread-1 (most likely raised during interpreter shutdown):
Traceback (most recent call last):
  File "/usr/lib/python2.4/threading.py", line 442, in __bootstrap
  File "/opt/company/workspace/username/application/src/mainwidget.py", line 1066, in run
  File "/usr/lib/python2.4/Queue.py", line 89, in put
  File "/usr/lib/python2.4/threading.py", line 237, in notify
exceptions.TypeError: exceptions must be classes, instances, or strings (deprecated), not NoneType
Unhandled exception in thread started by 
Error in sys.excepthook:

Original exception was:
Run Code Online (Sandbox Code Playgroud)

下面是我的部分代码(线程相关的代码已经完成,剩下的我提取主要操作)。当我使用 GUI 启动外部子进程时,同时创建了一个 …

python multithreading wxpython exception

1
推荐指数
1
解决办法
3690
查看次数

查找php中2个unix时间戳之间的天数

干草,我有一个举办活动的数据库.有两个字段'start'和'end',它们包含时间戳.当管理员输入这些日期时,他们只能设置日,月,年.所以我们只处理包含天,月,年,而不是小时,分钟,秒(小时,分钟和秒设置为0,0,0)的邮票.

我有一个事件,开始时间为1262304000,结束时间为1262908800.这些转换为2010年1月1日和2010年1月8日.我如何获得这些时间戳之间的所有日期?我希望能够返回2010年1月2日(1262390400),2010年1月3日(1262476800)..一直到结束邮票.这些事件可以跨越到不同月份,例如5月28日至6月14日.

任何想法如何做到这一点?

php unix timestamp strtotime mktime

28
推荐指数
1
解决办法
5万
查看次数

javascript正则表达式拆分

是否可以使用正则表达式将字符串拆分两次?例如,假设我有字符串:

example=email@address.com|fname|lname
Run Code Online (Sandbox Code Playgroud)

我怎么能分成结果:

email@address.com,fname,lname
Run Code Online (Sandbox Code Playgroud)

谢谢...

javascript regex

0
推荐指数
1
解决办法
418
查看次数

如何在Emacs diff模式下配置突出显示?

我使用mercurial.elEmacs模式.当我运行时vc-diff,我可以看到差异,但是,与源代码不同,它没有很好地突出显示:

Emacs vc-diff

阅读这些差异很困难.我如何配置Emacs,

  1. 突出显示-+不同颜色的线条?(例如红色和蓝色)
  2. 突出显示单词差异(比如BitBucket和GitHub)

emacs version-control diff syntax-highlighting

6
推荐指数
1
解决办法
3914
查看次数

如何动态声明一个类?C#

是否有可能动态声明一个类?是否有可能在C#中使用匿名类创建通用列表?任何代码片段都会有所帮助.谢谢

.net c# reflection anonymous-class

3
推荐指数
2
解决办法
2312
查看次数

带有默认值的.net字典

我想要一个字典,它将返回不在字典中的任何键的指定值,如:

var dict = new DictWithDefValues("not specified");
dict.Add("bob78", "Smart");
dict.Add("jane17", "Doe");
Assert.AreEqual(dict["xxx"], "not specified");
Run Code Online (Sandbox Code Playgroud)

扩展System.Collections.Generics.Dictionary并覆盖TryGetValue不起作用,因为TryGetValue不是虚拟的.

从头开始重新实现字典(来自IDictionary <,>)是太多的努力.

扩展方法不会让我用默认值"初始化"字典.我希望字典的消费者认为密钥存在,而不仅仅是dict.GetOrDefault(key, "not specified");

.net dictionary

3
推荐指数
2
解决办法
4318
查看次数

如何检查struct中未使用的成员?

如果我声明并且从不使用变量,那么gcc会给我一个警告.

但是,如果我有一个包含几个成员的结构,而其中一些没有使用,那么gcc就不会对它发出警告......

是否有选项(或其他方法)来检查这些?

(当然我可以手动删除一些条目并尝试再次编译,但我正在寻找这种方法).

谢谢

c struct gcc-warning

5
推荐指数
2
解决办法
1675
查看次数

为什么我们需要strdup()?

当我在完成任务时,我发现我们不应该使用如下任务:

 char *s="HELLO WORLD";
Run Code Online (Sandbox Code Playgroud)

使用这种语法的程序容易崩溃.

我尝试过并使用过:

 int fun(char *temp)
 {
    // do sum operation on temp
    // print temp.
  }
  fun("HELLO WORLD");
Run Code Online (Sandbox Code Playgroud)

甚至上面的工作(虽然输出是编译器和标准特定的).

相反,我们应该尝试strdup()或使用const char*

我曾尝试在博客上阅读其他类似的问题,但无法得到上述代码为什么工作的概念.

内存分配?const有什么不同?

c

11
推荐指数
2
解决办法
4371
查看次数