因此,我是一名CS学生,他正在尝试学习网络抓取,以及随之而来的所有事情.在搞乱了iMacros和其他一些数据抓取工具后,我转向Python,这是我当时不熟悉的一种语言.我了解了BeautifulSoup和urllib2,并通过stackoverflow和其他一些论坛来学习它.
现在,使用我迄今为止获得的知识,我可以抓取大多数静态网页.然而,我们都知道静态页面的时代已经结束,因为JS现在甚至在平庸的网站上占据了至高无上的地位.
我希望有人在这里指导我正确的方向.我想学习一种方法来加载载有Javascript的网页,加载所有内容,然后以某种方式将这些数据导入到BeautifulSoup函数中.Urllib2很糟糕.我还希望能够填写表单并浏览按钮点击.
大部分我感兴趣的网站都包含一长串结果列表,当您向下滚动时会加载这些结果.加载它们然后下载页面似乎没有帮助(不知道为什么会这样).我正在使用Windows 7,并安装了Python 2.7.5.
我被告知无头浏览器,如僵尸或Ghost会帮助我,但我真的不太了解那些.我尝试使用诸如mechanize之类的库,但它们并不真正满足我的需求,即加载结果,获取网页,并输入BS4.
考虑到我对Python的最低限度的了解,有谁可以帮助我在这里?
谢谢
我有一个字符串,表示Javascript中的地址,例如"一些地址,城市,邮政编码".
我想把'邮政编码'部分拿出来.
我想为此使用split方法.我只想知道一个正则表达式,它将在我的字符串中找到最后一次出现','.
我曾尝试过写表达式等
address.split("/\,(?=[^,]*$)/");
Run Code Online (Sandbox Code Playgroud)
和
address.split(",(?=[^,]*$)");
Run Code Online (Sandbox Code Playgroud)
但这些似乎不起作用.救命!
我使用的是Python 2.7,我有很多字符串数据.我需要从中解析出一个特定的模式.模式如下:
November 5 - December 10
Another example:
September 23 - December 16
Run Code Online (Sandbox Code Playgroud)
我想使用正则表达式来查找此模式中的数据.这是一串字符,后跟一个空格,后跟一个数字,后跟一个' - ',然后是一串字符,然后是空格,后跟一个数字!
我知道这听起来很复杂,但有人可以帮助我!
我正在使用CodeIgniter + MySQL开发一个网站,我遇到了一些问题.
我想这样做,以便数据库每天检查一个表的列(类型为'Date),以查看它是否在'过去'.也就是说,我想以某种方式让数据库知道CURRENT DATE是否超过某个表中的某个字段.
如果它超过当前日期,我想要更新另一列.
我完全不知道怎么做.我认为这将是各种各样的触发器,但我会在哪里调用它,我如何确保每天调用它?
提前致谢
javascript ×2
python ×2
regex ×2
codeigniter ×1
mysql ×1
php ×1
sql ×1
triggers ×1
web-scraping ×1