小编nic*_*hel的帖子

按日期对Pandas Dataframe进行排序

我有一个pandas数据帧如下:

Symbol  Date
A       02/20/2015
A       01/15/2016
A       08/21/2015

Run Code Online (Sandbox Code Playgroud)

我想按它排序Date,但列只是一个object.

我试图使列成为日期对象,但我遇到了一个问题,即该格式不是所需的格式.所需格式2015-02-20,等

所以现在我想弄清楚如何将'美国'日期转换为ISO标准,以便我可以将它们作为日期对象,以便我可以按它们排序.

我如何将这些美国日期转换为ISO标准,还是我在熊猫中缺少一种更直接的方法？

python pandas

nic*_*hel

2015 08-06

54
推荐指数

4
解决办法

15万
查看次数

与熊猫和groupby的Boxplot

我有以下数据集示例:

     0         1
0    0  0.040158
1    2  0.500642
2    0  0.005694
3    1  0.065052
4    0  0.034789
5    2  0.128495
6    1  0.088816
7    1  0.056725
8    0 -0.000193
9    2 -0.070252
10   2  0.138282
11   2  0.054638
12   2  0.039994
13   2  0.060659
14   0  0.038562

Run Code Online (Sandbox Code Playgroud)

并且需要一个盒子和胡须图,按第0列分组.我有以下内容:

plt.figure()
grouped = df.groupby(0)
grouped.boxplot(column=1)
plt.savefig('plot.png')

Run Code Online (Sandbox Code Playgroud)

但我最终得到了三个子图.如何将所有三个放在一个地块上？谢谢. 在此输入图像描述

matplotlib pandas

nic*_*hel

lucky-day

15
推荐指数

2
解决办法

2万
查看次数

使用第一行作为列名？熊猫read_html

我有这个简单的单行脚本:

from pandas import read_html

print read_html('http://money.cnn.com/data/hotstocks/', flavor = 'bs4')

Run Code Online (Sandbox Code Playgroud)

哪个工作正常,但是列名缺失,它们被识别为1,2,3.是否有一种简单的方法可以告诉pandas使用第一行作为列名？我知道我可以将名称存储为列表并设置它们,然后跳过第一行,但我想知道是否有更简单/更好的方法.

目前它打印:

                           0       1       2         3
0                    Company   Price  Change  % Change
1             AAPL Apple Inc  115.31   +6.17    +5.65%
2   BAC Bank of America Corp   15.20   -0.43    -2.75%
3            YHOO Yahoo! Inc   46.46   -1.53    -3.19%
4        MSFT Microsoft Corp   41.19   -1.47    -3.45%
5            FB Facebook Inc   76.24   +0.46    +0.61%
6     GE General Electric Co   23.84   -0.54    -2.21%
7                 T AT&T Inc   32.68   -0.13    -0.40%
8            F Ford Motor Co   14.46 …

Run Code Online (Sandbox Code Playgroud)

python parsing pandas

nic*_*hel

lucky-day

9
推荐指数

1
解决办法

6563
查看次数

在Python中将线程和进程与共享队列一起使用

我正在尝试同时使用多线程队列和多处理队列.20个线程将使用线程队列来检索许多网页.然后,我想将页面放入多进程队列,以便4个进程工作者可以处理数据.以下是我的基本结构.我的问题是,工作队列给出了一个错误,说Queue不可迭代.我认为多线程队列正在覆盖多进程队列,但我真的不知道出了什么问题.

ticker_queue = Queue()

work_queue = Queue()
tickers = get_tickers()


for i in tickers:
    ticker_queue.put(i)

for i in range(20):
    t = Thread(target=network_worker, args = (ticker_queue, work_queue)).start()

for i in range(4):
    p = Process(target = worker, args = (work_queue)).start()

Run Code Online (Sandbox Code Playgroud)

这是追溯

Traceback (most recent call last):
  File "OneDrive\Python\andys.py", line 108, in <module>
    p = Process(target = worker, args = (work_queue)).start()
  File "C:\Python27\lib\multiprocessing\process.py", line 104, in __init__
    self._args = tuple(args)
TypeError: 'Queue' object is not iterable

Run Code Online (Sandbox Code Playgroud)

python queue multithreading

nic*_*hel

2015 01-25

6
推荐指数

1
解决办法

5784
查看次数

从dataframe中的字符串中提取子字符串

我有以下ddataframe:

                             Company Name        Time Expectation
0                Asta Funding Inc. (ASFI)  9:35 AM ET           -
1                       BlackBerry (BBRY)  7:00 AM ET     ($0.03)
2                    Carnival Corp. (CCL)  9:15 AM ET       $0.09
3                      Carnival PLC (CUK)  0:00 AM ET           -

Run Code Online (Sandbox Code Playgroud)

我想将公司符号放在他们自己的单独列中,而不是在公司名称列中.现在我只是迭代公司名称,RE拉出符号,将其放入列表,然后我将其应用到新列,但我想知道是否有更清洁/更简单的方法.

我是整个地图的新手减少lambda的东西.

for company in df['Company Name']:
    ticker = re.search("\(.*\)",company).group(0)
    ticker = ticker[1:len(ticker)-1]
    tickers.append(ticker)

Run Code Online (Sandbox Code Playgroud)

python split pandas

nic*_*hel

lucky-day

4
推荐指数

1
解决办法

1万
查看次数

将dataframe索引转换为字符串和子字符串？

想知道最简单的方法是将下面的数据帧索引拆分为子串,并将第二块设置为新数据帧中的列.

Input:
          Ask    Bid   Last Open_Int Vol
245.0P  11.36  11.15  10.41       37  30
225.0C  10.31  10.23   10.3       52   5
224.5C  10.78  10.67     12       72  72
223.5C  11.68  11.56  12.68       89  59
244.5P  10.83  10.64   8.65      118  22
244.0P  10.34  10.15   9.93      137  10

Output:
          Ask    Bid   Last Open_Int Vol Type
245.0P  11.36  11.15  10.41       37  30 P
225.0C  10.31  10.23   10.3       52   5 C
224.5C  10.78  10.67     12       72  72 C
223.5C  11.68  11.56  12.68       89  59 C
244.5P  10.83 …

Run Code Online (Sandbox Code Playgroud)

dataframe pandas

nic*_*hel

lucky-day

2
推荐指数

1
解决办法

1668
查看次数