小编hoo*_*ted的帖子

Scrapy - 根据文本选择特定链接

这应该很容易,但我被卡住了.

<div class="paginationControl">
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link Text 2</a> | 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=3&amp;powerunit=2">Link Text 3</a> | 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=4&amp;powerunit=2">Link Text 4</a> | 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=5&amp;powerunit=2">Link Text 5</a> |   

<!-- Next page link --> 
  <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link Text Next ></a>
</div>
Run Code Online (Sandbox Code Playgroud)

我正在尝试使用Scrapy(Basespider)根据它的链接文本选择链接:

nextPage = HtmlXPathSelector(response).select("//div[@class='paginationControl']/a/@href").re("(.+)*?Next")
Run Code Online (Sandbox Code Playgroud)

例如,我想根据它的文本是"链接文本下一步"的事实选择下一页链接.有任何想法吗?

python web-crawler scrapy

8
推荐指数
2
解决办法
8082
查看次数

有效地计算平均值和中值

在Python列表中顺序查找行的均值和中位数的最有效方法是什么?

例如,我的清单:

input_list = [1,2,4,6,7,8]
Run Code Online (Sandbox Code Playgroud)

我想生成一个包含以下内容的输出列表:

output_list_mean = [1,1.5,2.3,3.25,4,4.7]
output_list_median = [1,1.5,2.0,3.0,4.0,5.0]
Run Code Online (Sandbox Code Playgroud)

平均值计算如下:

  • 1 =平均值(1)
  • 1.5 = mean(1,2)(即input_list中前2个值的平均值)
  • 2.3 = mean(1,2,4)(即input_list中前3个值的平均值)
  • 3.25 = mean(1,2,4,6)(即input_list中前4个值的平均值)等.

中位数计算如下:

  • 1 =中位数(1)
  • 1.5 =中位数(1,2)(即input_list中前2个值的中位数)
  • 2.0 =中位数(1,2,4)(即input_list中前3个值的中位数)
  • 3.0 =中位数(1,2,4,6)(即input_list中前4个值的中位数)等.

我试图用以下循环实现它,但它似乎非常低效.

import numpy

input_list = [1,2,4,6,7,8]

for item in range(1,len(input_list)+1):
    print(numpy.mean(input_list[:item]))
    print(numpy.median(input_list[:item]))
Run Code Online (Sandbox Code Playgroud)

python performance numpy mean median

6
推荐指数
1
解决办法
1952
查看次数

将字符串转换为日期[包含年份和季度]

我有一个pandas数据框,其中一列包含年份和季度的字符串,格式如下:

2015Q1
Run Code Online (Sandbox Code Playgroud)

我的问题: 如何将其转换为两个日期时间列,一个用于年份,另一个用于季度.

python date pandas

6
推荐指数
1
解决办法
6302
查看次数

MySQLdbexecutemany不添加数据

我正在尝试使用 MySQLdbexecutemany 命令将数据添加到表(test_copy),如下所示:

db = mdb.connect(host="127.0.0.1",port=3306,user='XXXX',db="test")
cursor = db.cursor()
COM = "insert into test_copy (Short_Model) VALUES (%s)"
VALS = ['213','3232','fd','sadad']
cursor.executemany(COM,VALS)
cursor.close
Run Code Online (Sandbox Code Playgroud)

注意:表名称 = test_copy,列名称 = Short_Model

问题是该命令运行时没有任何错误,但当我检查表时没有添加数据。

如果这是一个简单的问题,我深表歉意,但在过去的几个小时里它让我发疯。

谢谢。

python mysql mysql-python

4
推荐指数
1
解决办法
3894
查看次数

预测均值和标准差

如果这是一个简单的问题,我深表歉意,但在过去的一周里我一直没能找到任何答案,这让我发疯了。

背景信息:我有一个数据集,可以在 5 年内跟踪 5 个人的体重。每年,我都会对组中个人的权重进行分布,从中计算均值和标准差。数据如下:

 Year = [2002,2003,2004,2005,2006]
 Weights_2002 = [12, 14, 16, 18, 20]
 Weights_2003 = [14, 16, 18, 20,20]
 Weights_2004 = [16, 18, 20, 22, 18]
 Weights_2005 = [18, 21, 22, 22, 20]
 Weights_2006 = [2, 21, 19, 20, 20]
Run Code Online (Sandbox Code Playgroud)

问题:我如何预测该组未来 10 年的年度权重分布?理想情况下,我希望平均值的不确定性随着时间的推移而增加。同样,我也希望标准偏差的不确定性增加。换句话说,我想预测未来的权重分布,同时考虑两者:

  1. 数据中的自然方差
  2. 不确定性增加。

任何帮助将不胜感激,不胜感激。如果有人能建议如何在 R 中做到这一点,那就更好了。

谢谢你们!

statistics regression r distribution forecasting

1
推荐指数
1
解决办法
1881
查看次数

Python Pandas:将分钟转换为日期时间

数据:

我有一列数据,时间以分钟为单位。

data_df = [2000, 4000, 392, 600]
Run Code Online (Sandbox Code Playgroud)

问题:

如何将其转换为大熊猫可以处理的周、天、小时和分钟?

例子:

假设时间 = 0 对应于 '01-Jan-2010 00:00',我如何将 2000 分钟转换为 02-Jan-2010 09:20'。

python time pandas

1
推荐指数
1
解决办法
2864
查看次数