小编boo*_*htp的帖子

Python Web Scraping(Beautiful Soup,Selenium和PhantomJS):只抓取整页的一部分

您好我在尝试从网站上搜索数据以进行建模时遇到问题(fantsylabs网络公司).我只是一个黑客,所以请原谅我对comp sci lingo的无知.我想要完成的是......

使用selenium登录网站并导航到包含数据的页面.

## Initialize and load the web page
url = "website url"
driver = webdriver.Firefox()
driver.get(url)
time.sleep(3)

## Fill out forms and login to site
username = driver.find_element_by_name('input')
password = driver.find_element_by_name('password')
username.send_keys('username')
password.send_keys('password')
login_attempt = driver.find_element_by_class_name("pull-right")
login_attempt.click()

## Find and open the page with the data that I wish to scrape
link = driver.find_element_by_partial_link_text('Player Models')
link.click()
time.sleep(10)

##UPDATED CODE TO TRY AND SCROLL DOWN TO LOAD ALL THE DYNAMIC DATA
scroll = driver.find_element_by_class_name("ag-body-viewport")
driver.execute_script("arguments[0].scrollIntoView();", scroll)

## Try …

Run Code Online (Sandbox Code Playgroud)

selenium beautifulsoup web-scraping python-2.7 phantomjs

boo*_*htp

2017 05-23

5
推荐指数

1
解决办法

6964
查看次数

R计算重复值并将它们添加到单独的向量中

x <- c(1,1,1,2,3,3,4,4,4,5,6,6,6,6,6,7,7,8,8,8,8)
y <- c('A','A','C','A','B','B','A','C','C','B','A','A','C','C','B','A','C','A','A','A','B')
X <- data.frame(x,y)

Run Code Online (Sandbox Code Playgroud)

上面我有一个数据框,我想识别向量x中的重复项,同时计算两个(x,y)的重复实例数....例如我发现ddply和这篇帖子类似于什么我正在寻找(查找R数据框中重复行重复的次数).

library(ddply)
ddply(X,.(x,y), nrow)

Run Code Online (Sandbox Code Playgroud)

这计算实例的数量1 - A出现的次数是2次......但是我正在寻找R来返回向量x中的唯一标识符,其中x与列y中的匹配次数(如果除去向量y,则为必要的),如下

Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激,谢谢

boo*_*htp

2017 05-23

2
推荐指数

1
解决办法

2673
查看次数

安装easy_install,不是那么容易

我正在尝试安装easy_install以便使用BeautifulSoup ...但是我不知道我的PATH目录是什么...当我运行easy_install BeautifulSoup时......我得到了

错误:不是可识别的存档类型:C:\ docume~1\tom\locals~1\temp\weasy_install-w6haxs\BeautifulSoup-3.2.1.tar.gz

我猜这与在环境变量中没有设置的PATH有关.....但我不知道我的路径应该是什么...任何帮助都会受到赞赏...我很新所有这一切所以说英语而不是编程将不胜感激lol ..

python path beautifulsoup easy-install

boo*_*htp

2014 06-23

1
推荐指数

1
解决办法

4434
查看次数

标签统计

beautifulsoup ×2

easy-install ×1

path ×1

phantomjs ×1

python ×1

python-2.7 ×1

r ×1

selenium ×1

web-scraping ×1

Python Web Scraping(Beautiful Soup,Selenium和PhantomJS):只抓取整页的一部分

R计算重复值并将它们添加到单独的向量中

安装easy_install,不是那么容易

标签 统计

小编boo_htp的帖子

标签统计