相关疑难解决方法(0)

在Python中将XML/HTML实体转换为Unicode字符串

我正在做一些网页抓取,网站经常使用HTML实体来表示非ascii字符.Python是否有一个实用程序,它接受带有HTML实体的字符串并返回unicode类型?

例如:

我回来了:

ǎ
Run Code Online (Sandbox Code Playgroud)

代表带有音标的"ǎ".在二进制中,这表示为16位01ce.我想将html实体转换为值 u'\u01ce'

html python entities

69
推荐指数
7
解决办法
6万
查看次数

如何从subversion服务器显示存储库列表

我正在寻找一种搜索整个subversion服务器的方法.

我已经在存储库中搜索了一个难题.现在我需要为每个存储库执行此操作.

更新:

我必须从一些unix shell脚本(perl,bash等)访问此列表

svn version-control search

41
推荐指数
3
解决办法
13万
查看次数

Python:如何将markdown格式的文本转换为文本

我需要将markdown文本转换为纯文本格式以在我的网站中显示摘要.我想要python中的代码.

python markdown parsing

28
推荐指数
3
解决办法
2万
查看次数

过滤掉HTML标签并解析python中的实体

因为正则表达式吓到我了,所以我试图找到一种方法来删除所有HTML标记并从Python中的字符串中解析HTML实体.

html python

18
推荐指数
3
解决办法
2万
查看次数

Lauch默认编辑器(如'webbrowser'模块)

有没有一种简单的方法可以从Python命令行工具中获取系统默认编辑器,比如webbrowser模块?

python command-line editor

13
推荐指数
1
解决办法
7778
查看次数

如何使用python中的selenium滚动到页面的末尾

我试图滚动到页面的末尾,以便我可以使所有数据可见并提取它.我试图找到它的命令,但它在java(driver.executeScript)中可用,但找不到python.现在我正在使计算机按下结束键一千次:

while i<1000:
    scroll = driver.find_element_by_tag_name('body').send_keys(Keys.END)
    i+=1
Run Code Online (Sandbox Code Playgroud)

我还尝试了driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")但它滚动到加载页面的末尾和END键相同的东西.一旦到达页面底部,下一个内容就会加载.但现在它不再滚动.

我知道会有一个非常好的选择.请帮助.

python selenium

11
推荐指数
3
解决办法
1万
查看次数

忽略Python中的XML错误

我在Python中使用XML minidom(xml.dom.minidom),但XML中的任何错误都将终止解析器.是否可以忽略它们,例如浏览器?我试图用Python编写浏览器,但如果标签不完全兼容,它只会引发异常.

python xml minidom

6
推荐指数
1
解决办法
4032
查看次数

用Python解析html标签

我收到了一个网址,我想<BODY>从网址中提取标签的内容.我正在使用Python3.我遇到过sgmllib但它不适用于Python3.

有人可以指导我吗?我可以用HTMLParser它吗?

这是我试过的:

import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()

from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
    def handle_data(self, data):
        print("Encountered   some data:", data)

parser = MyHTMLParser()
parser.feed(s)
Run Code Online (Sandbox Code Playgroud)

这给了我错误:TypeError:无法隐式地将'bytes'对象转换为str

python-3.x

5
推荐指数
1
解决办法
3974
查看次数

如何在Python中获取Html页面的内容

我已将网页下载到html文件中.我想知道获取该页面内容的最简单方法是什么.根据内容,我的意思是我需要浏览器显示的字符串.

要明确:

输入:

<html><head><title>Page title</title></head>
       <body><p id="firstpara" align="center">This is paragraph <b>one</b>.
       <p id="secondpara" align="blah">This is paragraph <b>two</b>.
       </html>
Run Code Online (Sandbox Code Playgroud)

输出:

Page title This is paragraph one. This is paragraph two.
Run Code Online (Sandbox Code Playgroud)

放在一起:

from BeautifulSoup import BeautifulSoup
import re

def removeHtmlTags(page):
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
    return p.sub('', page)

def removeHtmlTags2(page):
    soup = BeautifulSoup(page)
    return ''.join(soup.findAll(text=True))
Run Code Online (Sandbox Code Playgroud)

有关

html python parsing

4
推荐指数
2
解决办法
1万
查看次数

如何将html电子邮件作为常规文本接收?

这是我到目前为止的代码:

import email, imaplib

user = 'some username'
pwd = 'some password'

m = imaplib.IMAP4_SSL("imap.gmail.com")
m.login(user, pwd)

m.select("[Gmail]/All Mail")

resp, data = m.fetch(1, "(RFC822)")

email_body = data[0][1]

mail = email.message_from_string(email_body)

print mail
Run Code Online (Sandbox Code Playgroud)

我目前收到的电子邮件有一堆奇怪的格式.我希望收到电子邮件正文作为纯文本字符串.

python email imap

3
推荐指数
3
解决办法
8625
查看次数