小编Dr *_*ile的帖子

来自雅虎的python lxml etree applet信息

雅虎财务更新了他们的网站 我有一个用于提取分析师建议的lxml/etree脚本.然而,现在,分析师的建议在那里,但仅作为图形.您可以在此页面上看到示例.右栏中名为"建议趋势"的图表显示了分析报告的数量,显示强买入,买入,持有,表现不佳和卖出.

我的猜测是雅虎会在接下来的一段时间内对页面进行一些调整,但它让我想知道这些数据是否可以以任何合理的方式提取?

  1. 我的意思是,有没有办法让图形与之一起工作?
  2. 即使一个人成功了,是否有合理的方法从图形中提取数据?

我以前得到这样的来源:

url = 'https://finance.yahoo.com/quote/'+code+'/analyst?p='+code
tree = etree.HTML(urllib.request.urlopen(url).read())
Run Code Online (Sandbox Code Playgroud)

然后在html树中查找数据.但显然现在这是不可能的.

python lxml web-scraping python-3.x

8
推荐指数
1
解决办法
366
查看次数

Python 正则表达式与模式中的可选单词拆分

我正在尝试围绕可能包含也可能不包含特定单词的特定短语拆分字符串。我正在努力寻找正确的语法。

这是代码的当前版本:

import re
from pprint import pprint

text = """Here is a list: Bob talked to Caleb, and Caleb talked to Derek, and Derek talked to Eric, and Eric talked to Fred, and Fred talked to Greg, and Greg talked to Henry, and Henry talked to Isaac, and Isaac talked to Jesse, and Jesse talked to Ken."""

pprint(re.split(r"(a?n?d? ?\w+ talked to)",text))
Run Code Online (Sandbox Code Playgroud)

在此示例中,我想拆分“Bob 与之交谈”或“and Caleb 与之交谈”,因此,如果存在,则应包含 和 ,如果不存在,则应包含 和 。

这段代码产生(几乎正确):

['Here is a list:',
 ' Bob talked to',
 ' …
Run Code Online (Sandbox Code Playgroud)

python regex

5
推荐指数
1
解决办法
939
查看次数

标签 统计

python ×2

lxml ×1

python-3.x ×1

regex ×1

web-scraping ×1