小编Ham*_*hir的帖子

刮取数据,无头浏览器和Python

因此,我是一名CS学生,他正在尝试学习网络抓取,以及随之而来的所有事情.在搞乱了iMacros和其他一些数据抓取工具后,我转向Python,这是我当时不熟悉的一种语言.我了解了BeautifulSoup和urllib2,并通过stackoverflow和其他一些论坛来学习它.

现在,使用我迄今为止获得的知识,我可以抓取大多数静态网页.然而,我们都知道静态页面的时代已经结束,因为JS现在甚至在平庸的网站上占据了至高无上的地位.

我希望有人在这里指导我正确的方向.我想学习一种方法来加载载有Javascript的网页,加载所有内容,然后以某种方式将这些数据导入到BeautifulSoup函数中.Urllib2很糟糕.我还希望能够填写表单并浏览按钮点击.

大部分我感兴趣的网站都包含一长串结果列表,当您向下滚动时会加载这些结果.加载它们然后下载页面似乎没有帮助(不知道为什么会这样).我正在使用Windows 7,并安装了Python 2.7.5.

我被告知无头浏览器,如僵尸或Ghost会帮助我,但我真的不太了解那些.我尝试使用诸如mechanize之类的库,但它们并不真正满足我的需求,即加载结果,获取网页,并输入BS4.

考虑到我对Python的最低限度的了解,有谁可以帮助我在这里?

谢谢

javascript python screen-scraping web-scraping

5
推荐指数
1
解决办法
3574
查看次数

在javascript中使用regex查找字符串中最后一次出现的逗号

我有一个字符串,表示Javascript中的地址,例如"一些地址,城市,邮政编码".

我想把'邮政编码'部分拿出来.

我想为此使用split方法.我只想知道一个正则表达式,它将在我的字符串中找到最后一次出现','.

我曾尝试过写表达式等

address.split("/\,(?=[^,]*$)/"); 
Run Code Online (Sandbox Code Playgroud)

address.split(",(?=[^,]*$)");
Run Code Online (Sandbox Code Playgroud)

但这些似乎不起作用.救命!

javascript regex last-occurrence

3
推荐指数
2
解决办法
4329
查看次数

正则表达式在python中找到一个特定的模式

我使用的是Python 2.7,我有很多字符串数据.我需要从中解析出一个特定的模式.模式如下:

November 5 - December 10
Another example:
September 23 - December 16 
Run Code Online (Sandbox Code Playgroud)

我想使用正则表达式来查找此模式中的数据.这是一串字符,后跟一个空格,后跟一个数字,后跟一个' - ',然后是一串字符,然后是空格,后跟一个数字!

我知道这听起来很复杂,但有人可以帮助我!

python regex

3
推荐指数
1
解决办法
125
查看次数

每天自动检查网站数据库列

我正在使用CodeIgniter + MySQL开发一个网站,我遇到了一些问题.

我想这样做,以便数据库每天检查一个表的列(类型为'Date),以查看它是否在'过去'.也就是说,我想以某种方式让数据库知道CURRENT DATE是否超过某个表中的某个字段.

如果它超过当前日期,我想要更新另一列.

我完全不知道怎么做.我认为这将是各种各样的触发器,但我会在哪里调用它,我如何确保每天调用它?

提前致谢

php mysql sql triggers codeigniter

0
推荐指数
1
解决办法
356
查看次数