如何在lxml中处理编码以正确解析html-string？

it_*_*ure 7 python lxml

我有一个xml文件.请下载并保存为blog.xml.这是我在Google-blogger中的文件列表,我写了一些代码来解析它,有一些东西拧成了lxml.

代码1:

from stripogram import html2text
import feedparser
d = feedparser.parse('blog.xml')
for num,entry in enumerate(d.entries):
    string=entry.content[0]['value'].encode("utf-8")
    print   html2text(string)

Run Code Online (Sandbox Code Playgroud)

它使用code1获得正确的结果.

码2:

import lxml.html
import feedparser
d = feedparser.parse('blog.xml')
for num,entry in enumerate(d.entries):
    string=entry.content[0]['value'] 
    myhtml=lxml.html.document_fromstring(string)
    print  myhtml.text_content()

Run Code Online (Sandbox Code Playgroud)

它使用code2得到错误的输出.

Traceback (most recent call last):
  File "<stdin>", line 3, in <module>
  File "/usr/lib/python2.7/dist-packages/lxml/html/__init__.py", line 532, in document_fromstring
    value = etree.fromstring(html, parser, **kw)
  File "lxml.etree.pyx", line 2754, in lxml.etree.fromstring (src/lxml/lxml.etree.c:54631)
  File "parser.pxi", line 1569, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:82659)
 ValueError: Unicode strings with encoding declaration are not supported.

Run Code Online (Sandbox Code Playgroud)

CODE3:

import lxml.html
import feedparser
d = feedparser.parse('blog.xml')
for num,entry in enumerate(d.entries):
    string=entry.content[0]['value'].encode("utf-8") 
    myhtml=lxml.html.document_fromstring(string)
    print  myhtml.text_content()

Run Code Online (Sandbox Code Playgroud)

它使用code3得到错误的输出.

 Traceback (most recent call last):
  File "<stdin>", line 3, in <module>
  File "/usr/lib/python2.7/dist-packages/lxml/html/__init__.py", line 532, in document_fromstring
    value = etree.fromstring(html, parser, **kw)
  File "lxml.etree.pyx", line 2754, in lxml.etree.fromstring (src/lxml/lxml.etree.c:54631)
  File "parser.pxi", line 1578, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:82748)
  File "parser.pxi", line 1457, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:81546)
  File "parser.pxi", line 965, in lxml.etree._BaseParser._parseDoc (src/lxml/lxml.etree.c:78216)
  File "parser.pxi", line 569, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:74472)
  File "parser.pxi", line 650, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:75363)
  File "parser.pxi", line 599, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:74827)
 lxml.etree.XMLSyntaxError: line 1395: Tag b:include invalid

Run Code Online (Sandbox Code Playgroud)

如何在lxml中处理编码以正确解析html-string？

lxml 中有一个错误。检查此代码的输出：

import lxml.html
import feedparser

def test():
    try:
        lxml.html.document_fromstring('')
    except Exception as e:
        print e

d = feedparser.parse('blog.xml')
e = d.entries[0].content[0]['value'].encode('utf-8')

test() # XMLSyntaxError: None

lxml.html.document_fromstring(e)
test() # XMLSyntaxError: line 1407: Tag b:include invalid

Run Code Online (Sandbox Code Playgroud)

因此错误令人困惑，解析失败的真正原因是您将空字符串传递给了 document_fromstring。

试试这个代码：

import lxml.html
import feedparser
d = feedparser.parse('blog.xml')
for num,entry in enumerate(d.entries):
    string=entry.content[0]['value'].encode("utf-8") 
    if not string:
        continue
    myhtml=lxml.html.document_fromstring(string)
    print  myhtml.text_content()

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，8 月前
查看次数：	5057 次
最近记录：	12 年，8 月前

从字典中删除元素 1243

Python中的"at"(@)符号有什么作用？ 501

python文件扩展名是什么,.pyc .pyd .pyo代表什么？ 419

将sqlalchemy行对象转换为python dict 220

Python:一次尝试多个除外 162

查看numpy阵列？ 86

在python 3中的yield生成器中没有next()函数 82

ctypes错误:libdc1394错误:无法初始化libdc1394 67

django - 在保存之前比较新旧字段值 57

从列表中获取第一个非None值 50

RESTful编程究竟是什么？ 3917

如何通过引用传递变量？ 2480

插入...值(SELECT ... FROM ...) 1340

在JavaScript中删除数组元素 - 删除vs splice 1304

如何在正则表达式中使用变量？ 1250

在对象名称之前单个和双下划线的含义是什么？ 1205

Subversion存储库中"分支","标记"和"主干"的含义是什么？ 1181

如何重置MySQL中的AUTO_INCREMENT？ 1174

如何使用Windows开发机器为iPhone开发？ 1161

如何使用Python连接MySQL数据库？ 1117