小编hoo*_*ted的帖子

Scrapy - 根据文本选择特定链接

这应该很容易,但我被卡住了.

<div class="paginationControl">
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link Text 2</a> | 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=3&amp;powerunit=2">Link Text 3</a> | 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=4&amp;powerunit=2">Link Text 4</a> | 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=5&amp;powerunit=2">Link Text 5</a> |   

<!-- Next page link --> 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link Text Next ></a>
</div>

Run Code Online (Sandbox Code Playgroud)

我正在尝试使用Scrapy(Basespider)根据它的链接文本选择链接:

nextPage = HtmlXPathSelector(response).select("//div[@class='paginationControl']/a/@href").re("(.+)*?Next")

Run Code Online (Sandbox Code Playgroud)

例如,我想根据它的文本是"链接文本下一步"的事实选择下一页链接.有任何想法吗？

python web-crawler scrapy

hoo*_*ted

lucky-day

8
推荐指数

2
解决办法

8082
查看次数

有效地计算平均值和中值

在Python列表中顺序查找行的均值和中位数的最有效方法是什么？

例如,我的清单:

input_list = [1,2,4,6,7,8]

Run Code Online (Sandbox Code Playgroud)

我想生成一个包含以下内容的输出列表:

output_list_mean = [1,1.5,2.3,3.25,4,4.7]
output_list_median = [1,1.5,2.0,3.0,4.0,5.0]

Run Code Online (Sandbox Code Playgroud)

平均值计算如下:

1 =平均值(1)
1.5 = mean(1,2)(即input_list中前2个值的平均值)
2.3 = mean(1,2,4)(即input_list中前3个值的平均值)
3.25 = mean(1,2,4,6)(即input_list中前4个值的平均值)等.

中位数计算如下:

1 =中位数(1)
1.5 =中位数(1,2)(即input_list中前2个值的中位数)
2.0 =中位数(1,2,4)(即input_list中前3个值的中位数)
3.0 =中位数(1,2,4,6)(即input_list中前4个值的中位数)等.

我试图用以下循环实现它,但它似乎非常低效.

import numpy

input_list = [1,2,4,6,7,8]

for item in range(1,len(input_list)+1):
    print(numpy.mean(input_list[:item]))
    print(numpy.median(input_list[:item]))

Run Code Online (Sandbox Code Playgroud)

python performance numpy mean median

hoo*_*ted

2015 07-13

6
推荐指数

1
解决办法

1952
查看次数

将字符串转换为日期[包含年份和季度]

我有一个pandas数据框,其中一列包含年份和季度的字符串,格式如下:

2015Q1

Run Code Online (Sandbox Code Playgroud)

我的问题: 如何将其转换为两个日期时间列,一个用于年份,另一个用于季度.

python date pandas

hoo*_*ted

lucky-day

6
推荐指数

1
解决办法

6302
查看次数

MySQLdbexecutemany不添加数据

我正在尝试使用 MySQLdbexecutemany 命令将数据添加到表（test_copy），如下所示：

db = mdb.connect(host="127.0.0.1",port=3306,user='XXXX',db="test")
cursor = db.cursor()
COM = "insert into test_copy (Short_Model) VALUES (%s)"
VALS = ['213','3232','fd','sadad']
cursor.executemany(COM,VALS)
cursor.close

Run Code Online (Sandbox Code Playgroud)

注意：表名称 = test_copy，列名称 = Short_Model

问题是该命令运行时没有任何错误，但当我检查表时没有添加数据。

如果这是一个简单的问题，我深表歉意，但在过去的几个小时里它让我发疯。

谢谢。

python mysql mysql-python

hoo*_*ted

lucky-day

4
推荐指数

1
解决办法

3894
查看次数

预测均值和标准差

如果这是一个简单的问题，我深表歉意，但在过去的一周里我一直没能找到任何答案，这让我发疯了。

背景信息：我有一个数据集，可以在 5 年内跟踪 5 个人的体重。每年，我都会对组中个人的权重进行分布，从中计算均值和标准差。数据如下：

 Year = [2002,2003,2004,2005,2006]
 Weights_2002 = [12, 14, 16, 18, 20]
 Weights_2003 = [14, 16, 18, 20,20]
 Weights_2004 = [16, 18, 20, 22, 18]
 Weights_2005 = [18, 21, 22, 22, 20]
 Weights_2006 = [2, 21, 19, 20, 20]

Run Code Online (Sandbox Code Playgroud)

问题：我如何预测该组未来 10 年的年度权重分布？理想情况下，我希望平均值的不确定性随着时间的推移而增加。同样，我也希望标准偏差的不确定性增加。换句话说，我想预测未来的权重分布，同时考虑两者：