小编boo*_*htp的帖子

Python Web Scraping(Beautiful Soup,Selenium和PhantomJS):只抓取整页的一部分

您好我在尝试从网站上搜索数据以进行建模时遇到问题(fantsylabs网络公司).我只是一个黑客,所以请原谅我对comp sci lingo的无知.我想要完成的是......

  1. 使用selenium登录网站并导航到包含数据的页面.

    ## Initialize and load the web page
    url = "website url"
    driver = webdriver.Firefox()
    driver.get(url)
    time.sleep(3)
    
    ## Fill out forms and login to site
    username = driver.find_element_by_name('input')
    password = driver.find_element_by_name('password')
    username.send_keys('username')
    password.send_keys('password')
    login_attempt = driver.find_element_by_class_name("pull-right")
    login_attempt.click()
    
    ## Find and open the page with the data that I wish to scrape
    link = driver.find_element_by_partial_link_text('Player Models')
    link.click()
    time.sleep(10)
    
    ##UPDATED CODE TO TRY AND SCROLL DOWN TO LOAD ALL THE DYNAMIC DATA
    scroll = driver.find_element_by_class_name("ag-body-viewport")
    driver.execute_script("arguments[0].scrollIntoView();", scroll)
    
    ## Try …
    Run Code Online (Sandbox Code Playgroud)

selenium beautifulsoup web-scraping python-2.7 phantomjs

5
推荐指数
1
解决办法
6964
查看次数

R计算重复值并将它们添加到单独的向量中

x <- c(1,1,1,2,3,3,4,4,4,5,6,6,6,6,6,7,7,8,8,8,8)
y <- c('A','A','C','A','B','B','A','C','C','B','A','A','C','C','B','A','C','A','A','A','B')
X <- data.frame(x,y)
Run Code Online (Sandbox Code Playgroud)

上面我有一个数据框,我想识别向量x中的重复项,同时计算两个(x,y)的重复实例数....例如我发现ddply和这篇帖子类似于什么我正在寻找(查找R数据框中重复行重复的次数).

library(ddply)
ddply(X,.(x,y), nrow)
Run Code Online (Sandbox Code Playgroud)

这计算实例的数量1 - A出现的次数是2次......但是我正在寻找R来返回向量x中的唯一标识符,其中x与列y中的匹配次数(如果除去向量y,则为必要的),如下

x  A  B  C
1  2  0  1
2  1  0  0
3  0  2  0
4  1  0  2
5  0  1  0
6  2  1  2 
Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激,谢谢

r

2
推荐指数
1
解决办法
2673
查看次数

安装easy_install,不是那么容易

我正在尝试安装easy_install以便使用BeautifulSoup ...但是我不知道我的PATH目录是什么...当我运行easy_install BeautifulSoup时......我得到了

错误:不是可识别的存档类型:C:\ docume~1\tom\locals~1\temp\weasy_install-w6haxs\BeautifulSoup-3.2.1.tar.gz

我猜这与在环境变量中没有设置的PATH有关.....但我不知道我的路径应该是什么...任何帮助都会受到赞赏...我很新所有这一切所以说英语而不是编程将不胜感激lol ..

python path beautifulsoup easy-install

1
推荐指数
1
解决办法
4434
查看次数