相关疑难解决方法(0)

var request = require('request');
var cheerio = require('cheerio');
var url = "http://www.bdtong.co.kr/index.php?c_category=C02";

request(url, function (err, res, html) {
    var $ = cheerio.load(html);
    $('.listMain > li').each(function () {
        console.log($(this).find('a').attr('href'));
    });
});

Run Code Online (Sandbox Code Playgroud)

此代码返回空响应,因为页面加载时<ul id="store_list" class="listMain">为空.

内容尚未附加.

如何使用node.js获取这些元素？如何使用动态内容抓取页面？

javascript web-crawler node.js phantomjs

Jay*_*ayD

2019 05-16

22
推荐指数

3
解决办法

2万
查看次数

用python生成的javascript生成的html

我需要用python抓一个站点.我获得与urlib模块的源HTML代码,但我需要也刮由一个JavaScript功能(这是包含在HTML源)中产生一些HTML代码.这个功能在网站中的作用是当你按下一个按钮时输出一些HTML代码.如何用python代码"按下"这个按钮？scrapy可以帮助我吗？我用firebug捕获了POST请求,但是当我尝试在url上传递它时,我收到403错误.有什么建议？

javascript python browser screen-scraping

hym*_*oth

2011 11-24

17
推荐指数

2
解决办法

1万
查看次数

刮一个动态的网站

什么是抓住动态网站的最佳方法,其中大部分内容是由似乎是ajax请求生成的？我之前有过使用Mechanize,BeautifulSoup和python组合的经验,但我还有新的东西.

- 编辑 - 更多细节:我正在试图刮掉CNN 主数据库.那里有大量的信息,但似乎没有api.

python ajax screen-scraping beautifulsoup

Col*_*nes

2008 10-16

12
推荐指数

2
解决办法

7598
查看次数

我使用Selenium Webdriver for C#和Python来从网站获取数据元素,但网络抓取的速度非常慢.刮掉35000个数据表花了我大约1.5天.使用Selenium Webdriver,我可以执行Javascript来获取Java元素.是否有一些库可用,不需要类似Webdriver的东西在网页上执行Javascript来检索元素,并且还可以点击元素？或者是否有更快的替代Selenium？

javascript selenium webdriver

Rob*_*mit

lucky-day

11
推荐指数

2
解决办法

1万
查看次数

在python 3中使用requests.get获取数据之前等待页面加载

我有一个页面,我需要获取与BS4一起使用的源,但页面中间需要1秒(可能更少)来加载内容,并且requests.get在加载部分之前捕获页面的源,如何在获取数据之前,我可以等一下吗？

r = requests.get(URL + self.search, headers=USER_AGENT, timeout=5 )
    soup = BeautifulSoup(r.content, 'html.parser')
    a = soup.find_all('section', 'wrapper')

Run Code Online (Sandbox Code Playgroud)

这页纸

<section class="wrapper" id="resultado_busca">

Run Code Online (Sandbox Code Playgroud)

beautifulsoup web-scraping python-3.x python-requests

rib*_*bas

lucky-day

11
推荐指数

5
解决办法

2万
查看次数

如何将原始javascript对象转换为python字典？

屏幕抓取一些网站时,我从<script>标签中提取数据.
我得到的数据不是标准JSON格式.我不能用json.loads().

# from
js_obj = '{x:1, y:2, z:3}'

# to
py_obj = {'x':1, 'y':2, 'z':3}

Run Code Online (Sandbox Code Playgroud)

目前,我regex用来将原始数据转换为JSON格式.
但是当我遇到复杂的数据结构时,我感觉非常糟糕.

你有更好的解决方案吗？

javascript python json web-scraping

kev*_*kev

2018 07-08

10
推荐指数

3
解决办法

1万
查看次数

如何在任何地方使用Cors来反向代理并添加CORS头

我已经读了两个小时这个反向代理的文档来添加CORS头文件,我无法使用.能否请您帮助一个简单的例子如何使用它.

CORS任何地方

我在javascript中尝试过这个例子

(function() {
var cors_api_host = 'cors-anywhere.herokuapp.com';
var cors_api_url = 'https://' + cors_api_host + '/';
var slice = [].slice;
var origin = window.location.protocol + '//' + window.location.host;
var open = XMLHttpRequest.prototype.open;
XMLHttpRequest.prototype.open = function() {
    var args = slice.call(arguments);
    var targetOrigin = /^https?:\/\/([^\/]+)/i.exec(args[1]);
    if (targetOrigin && targetOrigin[0].toLowerCase() !== origin &&
        targetOrigin[1] !== cors_api_host) {
        args[1] = cors_api_url + args[1];
    }
    return open.apply(this, args);
};
})();

Run Code Online (Sandbox Code Playgroud)

我真的不明白我是否需要node.js或究竟是什么

javascript cors cors-anywhere

Str*_* B.

2019 02-15

9
推荐指数

3
解决办法

3万
查看次数