我想使用jQuery来解析RSS提要.这可以通过开箱即用的基础jQuery库完成,还是需要使用插件?
我在python中寻找一个好的库,可以帮助我解析RSS提要.有人用过feedparser吗?任何反馈?
我一直在从特定网站获取RSS订阅源时遇到问题.我最后编写了一个相当丑陋的程序来执行此功能,但我很好奇为什么会发生这种情况以及是否有任何更高级别的接口正确处理此问题.这个问题实际上不是一个显示限制因素,因为我不需要经常检索提要.
我已经阅读了一个捕获异常并返回部分内容的解决方案,但由于不完整的读取实际检索的字节数不同,我不确定这样的解决方案是否真的有效.
#!/usr/bin/env python
import os
import sys
import feedparser
from mechanize import Browser
import requests
import urllib2
from httplib import IncompleteRead
url = 'http://hattiesburg.legistar.com/Feed.ashx?M=Calendar&ID=543375&GUID=83d4a09c-6b40-4300-a04b-f88884048d49&Mode=2013&Title=City+of+Hattiesburg%2c+MS+-+Calendar+(2013)'
content = feedparser.parse(url)
if 'bozo_exception' in content:
print content['bozo_exception']
else:
print "Success!!"
sys.exit(0)
print "If you see this, please tell me what happened."
# try using mechanize
b = Browser()
r = b.open(url)
try:
r.read()
except IncompleteRead, e:
print "IncompleteRead using mechanize", e
# try using urllib2
r = urllib2.urlopen(url)
try:
r.read()
except IncompleteRead, e: …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用feedparser解析RSS提要并使用SQLAlchemy将其插入到mySQL表中.我实际上能够让这个运行得很好但是今天feed在描述中有一个带省略号字符的项目,我得到以下错误:
UnicodeEncodeError:'latin-1'编解码器无法编码位置35中的字符u'\ u2026':序数不在范围内(256)
如果我将convert_unicode = True选项添加到引擎,我可以让插件通过,但省略号不会显示它只是奇怪的字符.这似乎是有道理的,因为据我所知,拉丁语1中没有水平省略号.即使我将编码设置为utf-8,它似乎没有什么区别.如果我使用phpmyadmin进行插入并包含省略号,它会很好.
我想我只是不理解字符编码或如何让SQLAlchemy使用我指定的字符编码.有没有人知道如何让文本进入没有奇怪的字符?
UPDATE
我想我已经想出了这个,但我不确定为什么这很重要......
这是代码:
import sys
import feedparser
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table
COMMON_CHANNEL_PROPERTIES = [
('Channel title:','title', None),
('Channel description:', 'description', 100),
('Channel URL:', 'link', None),
]
COMMON_ITEM_PROPERTIES = [
('Item title:', 'title', None),
('Item description:', 'description', 100),
('Item URL:', 'link', None),
]
INDENT = u' '*4
def feedinfo(url, output=sys.stdout):
feed_data = feedparser.parse(url)
channel, items = feed_data.feed, feed_data.entries
#adding charset=utf8 here is what fixed the problem
db = create_engine('mysql://user:pass@localhost/db?charset=utf8')
metadata …Run Code Online (Sandbox Code Playgroud) 我正在使用Python中的feedparser库来从RSS提要中获取各种详细信息.假设我从新闻频道的RSS源中删除了25个标题.一小时后,我再次运行feedparser命令,以获取25个新标题的最新标题列表.第二次运行feedparser命令时,列表可能会更新,也可能不会更新.有些标题可能是相同的,有些可能是新的.我需要能够检查任何新闻标题中是否有更新,其标题是在一小时前提取出来的.只有新的标题必须推入数据库.这是为了避免重复转储到数据库中.
代码如下所示:
import feedparser
d = feedparser.parse('www.news.example.xml')
for item in d.entries:
hndlr.write(item.title) #data being dumped into a database
Run Code Online (Sandbox Code Playgroud)
我需要能够每小时运行上面的代码并检查标题中是否有任何更新(标题).如果前一小时提取的数据有任何变化,则只应将新数据转储到数据库中.
有人可以帮帮我吗?
我正在尝试跳过未使用feedparser和etags修改的RSS源.遵循文档指南:http://pythonhosted.org/feedparser/http-etag.html
import feedparser
d = feedparser.parse('http://www.wired.com/wiredscience/feed/')
d2 = feedparser.parse('http://www.wired.com/wiredscience/feed/', etag=d.etag)
print d2.status
Run Code Online (Sandbox Code Playgroud)
这输出:
200
Run Code Online (Sandbox Code Playgroud)
这个脚本不应该返回304吗?我的理解是,当RSS源更新时,etag会发生变化,如果匹配,那么我应该得到304.
为什么我没有得到我预期的结果?
我正在尝试为Python 3.2,Windows 64位安装Feedparser 5.1.
我曾尝试FOREVER(也就是过去2周)为Python安装Feedparser,并且一直在失败.我读过自述文件,尝试搜索互联网,没有任何对我有用.不用说,我觉得完全愚蠢.
有人请给我一步一步的说明来安装Feedparser 5.1 for Python 3.2 Windows 64位.我很绝望,拜托.
我的代码卡在这个函数调用上:
feedparser.parse("http://...")
Run Code Online (Sandbox Code Playgroud)
这之前有用.该网址甚至无法在浏览器中打开.你会如何治愈这种情况?是否有超时可能性?我想继续,好像什么都不会发生(只有打印一些消息或记录此问题)
我试图通过feedparser从两个不同的RSS提要中的条目中获取日期.
这是我正在做的事情:
import feedparser as fp
reddit = fp.parse("http://www.reddit.com/.rss")
cc = fp.parse("http://contentconsumer.com/feed")
print reddit.entries[0].date
print cc.entries[0].date
Run Code Online (Sandbox Code Playgroud)
以下是他们的表现:
2008-10-21T22:23:28.033841+00:00
Wed, 15 Oct 2008 10:06:10 +0000
Run Code Online (Sandbox Code Playgroud)
我希望能够轻松找到更新的东西.
我已经尝试使用Python的datetime模块并搜索feedparser文档,但我无法解决这个问题.任何帮助将非常感激.
我在 Python 上构建了一个简单的 RSS 阅读器,但它不起作用。另外,我想获取每个帖子的精选图片源链接,但我没有找到方法。
它向我显示了错误:回溯(最近一次通话):文件“RSS_reader.py”,第 7 行,在 feed_title = feed['feed']['title'] 中
如果有其他一些 RSS 提要可以正常工作。所以我不明白为什么有些 RSS 提要有效,而另一些则无效
所以我想了解为什么代码不起作用,以及如何获取我附上代码的帖子的特色图片源链接,是在 Python 3.7 上编写的
import feedparser
import webbrowser
feed = feedparser.parse("https://finance.yahoo.com/rss/")
feed_title = feed['feed']['title']
feed_entries = feed.entries
for entry in feed.entries:
article_title = entry.title
article_link = entry.link
article_published_at = entry.published # Unicode string
article_published_at_parsed = entry.published_parsed # Time object
article_author = entry.author
content = entry.summary
article_tags = entry.tags
print ("{}[{}]".format(article_title, article_link))
print ("Published at {}".format(article_published_at))
print ("Published by {}".format(article_author))
print("Content {}".format(content))
print("catagory{}".format(article_tags))
Run Code Online (Sandbox Code Playgroud) feedparser ×10
python ×9
rss ×6
datetime ×1
etag ×1
http-headers ×1
httplib ×1
install ×1
jquery ×1
mysql ×1
parsing ×1
python-3.7 ×1
sqlalchemy ×1
unicode ×1
windows64 ×1