我需要编写将所有href链接从网页放入数组的代码.这是我到目前为止所拥有的:
var array = [];
var links = document.links;
for(var i=0; i<links.length; i++) {
array.push(links[i].href);
}
Run Code Online (Sandbox Code Playgroud)
但是,这不适用于Gmail的收件箱这样的网页,因为部分链接位于iframe内.我怎样才能获得所有链接,包括iframe内的链接?
此外,这是谷歌Chrome扩展.在清单中,我将all_frames设置为true - 这会有所不同吗?
谢谢
我正在尝试使用python和mechanize从网站下载文件.我当前的代码成功登录到网站并打开包含下载链接的页面.
下载链接是:https://www.lendingclub.com/browse/browseNotesRawDataV2.action
该链接的信息是:
Link(base_url='https://www.lendingclub.com/browse/browse.action', url='/browse/browseNotesRawDataV2.action', text='', tag='a', attrs=[('class', 'master_pngfix'), ('id', 'browseDownloadAllLink'), ('href', '/browse/browseNotesRawDataV2.action')])
Run Code Online (Sandbox Code Playgroud)
我使用follow_link方法点击链接:
br = mechanize.Browser()
br.follow_link(url='/browse/browseNotesRawDataV2.action')
Run Code Online (Sandbox Code Playgroud)
但是,没有任何反应,也没有下载文件.当我登录时在浏览器中打开链接时,它会暂停几秒钟并下载文件.
如何使用Python下载文件?
我想使用PyQt/QWebview来1)加载特定的URL,2)将信息输入表单,3)单击按钮/链接.Mechanize不起作用,因为我需要一个实际的浏览器.
这是我的代码:
import sys
from PyQt4.QtCore import *
from PyQt4.QtGui import *
from PyQt4.QtWebKit import *
from PyQt4 import QtCore
app = QApplication(sys.argv)
web = QWebView()
web.load(QUrl("https://www.lendingclub.com/account/gotoLogin.action"))
def fillForm():
doc = web.page().mainFrame().documentElement()
user = doc.findFirst("input[id=master_username]")
passwd = doc.findFirst("input[id=master_password]")
user.setAttribute("value", "email@email.com")
passwd.setAttribute("value", "password")
button = doc.findFirst("input[id=master_sign-in-submit]")
button.evaluateJavaScript("click()")
QtCore.QObject.connect(web, QtCore.SIGNAL("loadFinished"), fillForm)
web.show()
sys.exit(app.exec_())
Run Code Online (Sandbox Code Playgroud)
页面正确加载,但未输入任何输入,并且未提交表单.有任何想法吗?
我正在尝试从csv加载训练和测试数据,在scikit/sklearn中运行随机森林回归器,然后预测测试文件的输出.
TrainLoanData.csv文件包含5列; 第一列是输出,接下来的4列是功能.TestLoanData.csv包含4列 - 功能.
当我运行代码时,我收到错误:
predicted_probs = ["%f" % x[1] for x in predicted_probs]
IndexError: invalid index to scalar variable.
Run Code Online (Sandbox Code Playgroud)
这是什么意思?
这是我的代码:
import numpy, scipy, sklearn, csv_io //csv_io from https://raw.github.com/benhamner/BioResponse/master/Benchmarks/csv_io.py
from sklearn import datasets
from sklearn.ensemble import RandomForestRegressor
def main():
#read in the training file
train = csv_io.read_data("TrainLoanData.csv")
#set the training responses
target = [x[0] for x in train]
#set the training features
train = [x[1:] for x in train]
#read in the test file
realtest = csv_io.read_data("TestLoanData.csv")
# …Run Code Online (Sandbox Code Playgroud) python ×3
javascript ×1
mechanize ×1
pyqt ×1
qtwebkit ×1
qwebview ×1
scikit-learn ×1
scipy ×1
web-scraping ×1