小编fra*_* hk的帖子

使用 Python 抓取由 Javascript 创建的动态内容

我想使用 python 脚本废弃由 javascript 函数创建的 DIV 内容。我已经尝试过使用 BS4 并且通过这样做我无法获得动态数据。相反,它只显示源代码。

示例代码:

import requests
from bs4 import BeautifulSoup

URL = "https://rawgit.com/skysoft999/tableauJS/master/example.html"
r = requests.get(URL)

soup = BeautifulSoup(r.content, 'html5lib')


for row in soup.findAll('div', attrs = {'class':'quote'}):
    print(row)


print(soup.prettify())
Run Code Online (Sandbox Code Playgroud)

示例 HTML 源代码位于Pastebin 中

要提取的样本数据:

在此处输入图片说明

python arrays beautifulsoup web-scraping python-3.x

3
推荐指数
1
解决办法
9908
查看次数

UnicodeEncodeError:'charmap'编解码器无法编码字符'\ u2264'

  • 我在Windows7和Django 1.9中使用python3.6
  • 运行代码时出现此错误。
  • 在我的代码中,我正在解析xml数据以编写一个html页面。
  • 我知道某个字符无法正确编码,这就是为什么它抛出错误。
  • \u2264 这是字符(小于或等于),这是错误的根本原因。
  • 我的问题是如何在python3中正确编码

详细错误日志:

Traceback (most recent call last):
  File "C:\Dev\EXE\TEMP\cookie\crumbs\views.py", line 1520, in parser
    html_file.write(html_text)
  File "C:\Users\Cookie1\AppData\Local\Programs\Python\Python36-32\lib\encodings\cp1252.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u2264' in position 389078: character maps to <undefined>
Run Code Online (Sandbox Code Playgroud)

python django unicode character-encoding python-3.x

0
推荐指数
1
解决办法
364
查看次数