相关疑难解决方法(0)

使用Python请求库保存大文件

可能重复:
如何使用请求下载图像

我知道获取URL非常简单requests.get,我可以获取原始响应体并将其保存到文件中,但是对于大文件,有没有办法直接流式传输到文件?就像我正在下载带有它的电影一样?

python http file download request

85
推荐指数
1
解决办法
9万
查看次数

如何使用CSS选择器使用BeautifulSoup检索位于某个类中的特定链接?

我是Python的新手,我正在学习它用于抓取目的我使用BeautifulSoup来收集链接(即'a'标签的href).我正在尝试收集网站http://allevents.in/lahore/的"UPCOMING EVENTS"标签下的链接.我正在使用Firebug来检查元素并获取CSS路径,但此代码没有返回任何内容.我正在寻找修复程序以及如何选择适当的CSS选择器以从任何站点检索所需链接的一些建议.我写了这段代码:

from bs4 import BeautifulSoup

import requests

url = "http://allevents.in/lahore/"

r  = requests.get(url)

data = r.text

soup = BeautifulSoup(data)
for link in soup.select( 'html body div.non-overlay.gray-trans-back div.container div.row div.span8 div#eh-1748056798.events-horizontal div.eh-container.row ul.eh-slider li.h-item div.h-meta div.title a[href]'):
    print link.get('href')
Run Code Online (Sandbox Code Playgroud)

css python firebug beautifulsoup css-selectors

16
推荐指数
3
解决办法
4万
查看次数

在Python中浏览HTML DOM

我正在寻找一个Python脚本(使用3.4.3),它从URL抓取一个HTML页面,并可以通过DOM来尝试查找特定元素.

我目前有这个:

#!/usr/bin/env python
import urllib.request

def getSite(url):
    return urllib.request.urlopen(url)

if __name__ == '__main__':
    content = getSite('http://www.google.com').read()
    print(content)
Run Code Online (Sandbox Code Playgroud)

当我打印内容时,它会打印出整个html页面,这与我想要的内容很接近......虽然我希望能够在DOM中导航而不是将其视为一个巨大的字符串.

我还是Python的新手,但有多种其他语言的经验(主要是Java,C#,C++,C,PHP,JS).我之前用Java做过类似的事情,但想在Python中尝试一下.

任何帮助表示赞赏.干杯!

html python dom httprequest

4
推荐指数
1
解决办法
1万
查看次数

正则表达式读取标签Python

我想用regex读取标签内的元素,例如:

<td>Stuff Here</td>
<td>stuff 
</td>
Run Code Online (Sandbox Code Playgroud)

我使用以下内容: re.findall(re.compile('<td>(.*)</td>'), str(line).strip())

为什么我可以阅读第一个<td>标签,但不是第二个?

html python regex tags

2
推荐指数
1
解决办法
167
查看次数

Python html解析

我需要解析类似但不完全相同的HTML电子邮件.我会寻找日期,金额,供应商等等,但根据电子邮件的来源,标记会有所不同.

我如何从python中的许多不同的html标记中解析出那些常见的东西?

谢谢你的建议.

html python parsing

1
推荐指数
1
解决办法
6253
查看次数