标签: feedparser

#!/usr/bin/env python
import os
import sys
import feedparser
from mechanize import Browser
import requests
import urllib2
from httplib import IncompleteRead

url = 'http://hattiesburg.legistar.com/Feed.ashx?M=Calendar&ID=543375&GUID=83d4a09c-6b40-4300-a04b-f88884048d49&Mode=2013&Title=City+of+Hattiesburg%2c+MS+-+Calendar+(2013)'

content = feedparser.parse(url)
if 'bozo_exception' in content:
    print content['bozo_exception']
else:
    print "Success!!"
    sys.exit(0)

print "If you see this, please tell me what happened."

# try using mechanize
b = Browser()
r = b.open(url)
try:
    r.read()
except IncompleteRead, e:
    print "IncompleteRead using mechanize", e

# try using urllib2
r = urllib2.urlopen(url)
try:
    r.read()
except IncompleteRead, e: …

Run Code Online (Sandbox Code Playgroud)

python feedparser httplib

ume*_*shi

2013 01-08

25
推荐指数

2
解决办法

3万
查看次数

如何让SQLAlchemy正确地将unicode省略号插入到mySQL表中？

我正在尝试使用feedparser解析RSS提要并使用SQLAlchemy将其插入到mySQL表中.我实际上能够让这个运行得很好但是今天feed在描述中有一个带省略号字符的项目,我得到以下错误:

UnicodeEncodeError:'latin-1'编解码器无法编码位置35中的字符u'\ u2026':序数不在范围内(256)

如果我将convert_unicode = True选项添加到引擎,我可以让插件通过,但省略号不会显示它只是奇怪的字符.这似乎是有道理的,因为据我所知,拉丁语1中没有水平省略号.即使我将编码设置为utf-8,它似乎没有什么区别.如果我使用phpmyadmin进行插入并包含省略号,它会很好.

我想我只是不理解字符编码或如何让SQLAlchemy使用我指定的字符编码.有没有人知道如何让文本进入没有奇怪的字符？

UPDATE

我想我已经想出了这个,但我不确定为什么这很重要......

这是代码:

import sys
import feedparser
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table

COMMON_CHANNEL_PROPERTIES = [
  ('Channel title:','title', None),
  ('Channel description:', 'description', 100),
  ('Channel URL:', 'link', None),
]

COMMON_ITEM_PROPERTIES = [
  ('Item title:', 'title', None),
  ('Item description:', 'description', 100),
  ('Item URL:', 'link', None),
]

INDENT = u' '*4

def feedinfo(url, output=sys.stdout):
  feed_data = feedparser.parse(url)
  channel, items = feed_data.feed, feed_data.entries

  #adding charset=utf8 here is what fixed the problem

  db = create_engine('mysql://user:pass@localhost/db?charset=utf8')
  metadata …

Run Code Online (Sandbox Code Playgroud)

python mysql unicode sqlalchemy feedparser

kve*_*nda

2012 02-06

16
推荐指数

1
解决办法

1万
查看次数

我正在使用Python中的feedparser库来从RSS提要中获取各种详细信息.假设我从新闻频道的RSS源中删除了25个标题.一小时后,我再次运行feedparser命令,以获取25个新标题的最新标题列表.第二次运行feedparser命令时,列表可能会更新,也可能不会更新.有些标题可能是相同的,有些可能是新的.我需要能够检查任何新闻标题中是否有更新,其标题是在一小时前提取出来的.只有新的标题必须推入数据库.这是为了避免重复转储到数据库中.

代码如下所示:

import feedparser
d = feedparser.parse('www.news.example.xml')
for item in d.entries:
    hndlr.write(item.title)  #data being dumped into a database

Run Code Online (Sandbox Code Playgroud)

我需要能够每小时运行上面的代码并检查标题中是否有任何更新(标题).如果前一小时提取的数据有任何变化,则只应将新数据转储到数据库中.

有人可以帮帮我吗？

python rss feedparser

use*_*759

2019 11-04

13
推荐指数

1
解决办法

8248
查看次数

Python:如何使用feedparser和etags检查RSS更新

我正在尝试跳过未使用feedparser和etags修改的RSS源.遵循文档指南:http://pythonhosted.org/feedparser/http-etag.html

import feedparser

d = feedparser.parse('http://www.wired.com/wiredscience/feed/')
d2 = feedparser.parse('http://www.wired.com/wiredscience/feed/', etag=d.etag)

print d2.status

Run Code Online (Sandbox Code Playgroud)

这输出:

Run Code Online (Sandbox Code Playgroud)

这个脚本不应该返回304吗？我的理解是,当RSS源更新时,etag会发生变化,如果匹配,那么我应该得到304.

为什么我没有得到我预期的结果？

python rss etag feedparser http-headers

Mar*_*arc

2013 05-27

11
推荐指数

1
解决办法

3253
查看次数

如何安装Feedparser 5.1 for Python 3.2 Windows 64位.

我正在尝试为Python 3.2,Windows 64位安装Feedparser 5.1.

我曾尝试FOREVER(也就是过去2周)为Python安装Feedparser,并且一直在失败.我读过自述文件,尝试搜索互联网,没有任何对我有用.不用说,我觉得完全愚蠢.

有人请给我一步一步的说明来安装Feedparser 5.1 for Python 3.2 Windows 64位.我很绝望,拜托.

python install feedparser windows64

Twi*_*d34

2013 01-17

10
推荐指数

1
解决办法

1万
查看次数

具有超时的feedparser

我的代码卡在这个函数调用上:

feedparser.parse("http://...")

Run Code Online (Sandbox Code Playgroud)

这之前有用.该网址甚至无法在浏览器中打开.你会如何治愈这种情况？是否有超时可能性？我想继续,好像什么都不会发生(只有打印一些消息或记录此问题)

python feedparser

xra*_*alf

lucky-day

10
推荐指数

3
解决办法

2974
查看次数

从python中的feedparser解析不同的日期格式？

我试图通过feedparser从两个不同的RSS提要中的条目中获取日期.

这是我正在做的事情:

import feedparser as fp
reddit = fp.parse("http://www.reddit.com/.rss")
cc = fp.parse("http://contentconsumer.com/feed")
print reddit.entries[0].date
print cc.entries[0].date

Run Code Online (Sandbox Code Playgroud)

以下是他们的表现:

2008-10-21T22:23:28.033841+00:00

Wed, 15 Oct 2008 10:06:10 +0000

Run Code Online (Sandbox Code Playgroud)

我希望能够轻松找到更新的东西.

我已经尝试使用Python的datetime模块并搜索feedparser文档,但我无法解决这个问题.任何帮助将非常感激.

python rss datetime parsing feedparser

Ali*_*air

lucky-day

8
推荐指数

1
解决办法

4794
查看次数

如何在 Python 3.7 中构建一个简单的 RSS 阅读器？

我在 Python 上构建了一个简单的 RSS 阅读器，但它不起作用。另外，我想获取每个帖子的精选图片源链接，但我没有找到方法。

它向我显示了错误：回溯（最近一次通话）：文件“RSS_reader.py”，第 7 行，在 feed_title = feed['feed']['title'] 中

如果有其他一些 RSS 提要可以正常工作。所以我不明白为什么有些 RSS 提要有效，而另一些则无效

所以我想了解为什么代码不起作用，以及如何获取我附上代码的帖子的特色图片源链接，是在 Python 3.7 上编写的

import feedparser
import webbrowser

feed = feedparser.parse("https://finance.yahoo.com/rss/")

feed_title = feed['feed']['title']
feed_entries = feed.entries

for entry in feed.entries:

    article_title = entry.title
    article_link = entry.link
    article_published_at = entry.published # Unicode string
    article_published_at_parsed = entry.published_parsed # Time object
    article_author = entry.author
    content = entry.summary
    article_tags = entry.tags


    print ("{}[{}]".format(article_title, article_link))
    print ("Published at {}".format(article_published_at))
    print ("Published by {}".format(article_author))
    print("Content {}".format(content))
    print("catagory{}".format(article_tags))

Run Code Online (Sandbox Code Playgroud)

python rss feedparser python-3.7

Kad*_*dio

2019 05-01

8
推荐指数

2
解决办法

2万
查看次数