我有一个pandas数据帧如下:
Symbol Date
A 02/20/2015
A 01/15/2016
A 08/21/2015
Run Code Online (Sandbox Code Playgroud)
我想按它排序Date
,但列只是一个object
.
我试图使列成为日期对象,但我遇到了一个问题,即该格式不是所需的格式.所需格式2015-02-20,
等
所以现在我想弄清楚如何将'美国'日期转换为ISO标准,以便我可以将它们作为日期对象,以便我可以按它们排序.
我如何将这些美国日期转换为ISO标准,还是我在熊猫中缺少一种更直接的方法?
我有以下数据集示例:
0 1
0 0 0.040158
1 2 0.500642
2 0 0.005694
3 1 0.065052
4 0 0.034789
5 2 0.128495
6 1 0.088816
7 1 0.056725
8 0 -0.000193
9 2 -0.070252
10 2 0.138282
11 2 0.054638
12 2 0.039994
13 2 0.060659
14 0 0.038562
Run Code Online (Sandbox Code Playgroud)
并且需要一个盒子和胡须图,按第0列分组.我有以下内容:
plt.figure()
grouped = df.groupby(0)
grouped.boxplot(column=1)
plt.savefig('plot.png')
Run Code Online (Sandbox Code Playgroud)
但我最终得到了三个子图.如何将所有三个放在一个地块上?谢谢.
我有这个简单的单行脚本:
from pandas import read_html
print read_html('http://money.cnn.com/data/hotstocks/', flavor = 'bs4')
Run Code Online (Sandbox Code Playgroud)
哪个工作正常,但是列名缺失,它们被识别为1,2,3.是否有一种简单的方法可以告诉pandas使用第一行作为列名?我知道我可以将名称存储为列表并设置它们,然后跳过第一行,但我想知道是否有更简单/更好的方法.
目前它打印:
0 1 2 3
0 Company Price Change % Change
1 AAPL Apple Inc 115.31 +6.17 +5.65%
2 BAC Bank of America Corp 15.20 -0.43 -2.75%
3 YHOO Yahoo! Inc 46.46 -1.53 -3.19%
4 MSFT Microsoft Corp 41.19 -1.47 -3.45%
5 FB Facebook Inc 76.24 +0.46 +0.61%
6 GE General Electric Co 23.84 -0.54 -2.21%
7 T AT&T Inc 32.68 -0.13 -0.40%
8 F Ford Motor Co 14.46 …
Run Code Online (Sandbox Code Playgroud) 我正在尝试同时使用多线程队列和多处理队列.20个线程将使用线程队列来检索许多网页.然后,我想将页面放入多进程队列,以便4个进程工作者可以处理数据.以下是我的基本结构.我的问题是,工作队列给出了一个错误,说Queue不可迭代.我认为多线程队列正在覆盖多进程队列,但我真的不知道出了什么问题.
ticker_queue = Queue()
work_queue = Queue()
tickers = get_tickers()
for i in tickers:
ticker_queue.put(i)
for i in range(20):
t = Thread(target=network_worker, args = (ticker_queue, work_queue)).start()
for i in range(4):
p = Process(target = worker, args = (work_queue)).start()
Run Code Online (Sandbox Code Playgroud)
这是追溯
Traceback (most recent call last):
File "OneDrive\Python\andys.py", line 108, in <module>
p = Process(target = worker, args = (work_queue)).start()
File "C:\Python27\lib\multiprocessing\process.py", line 104, in __init__
self._args = tuple(args)
TypeError: 'Queue' object is not iterable
Run Code Online (Sandbox Code Playgroud) 我有以下ddataframe:
Company Name Time Expectation
0 Asta Funding Inc. (ASFI) 9:35 AM ET -
1 BlackBerry (BBRY) 7:00 AM ET ($0.03)
2 Carnival Corp. (CCL) 9:15 AM ET $0.09
3 Carnival PLC (CUK) 0:00 AM ET -
Run Code Online (Sandbox Code Playgroud)
我想将公司符号放在他们自己的单独列中,而不是在公司名称列中.现在我只是迭代公司名称,RE拉出符号,将其放入列表,然后我将其应用到新列,但我想知道是否有更清洁/更简单的方法.
我是整个地图的新手减少lambda的东西.
for company in df['Company Name']:
ticker = re.search("\(.*\)",company).group(0)
ticker = ticker[1:len(ticker)-1]
tickers.append(ticker)
Run Code Online (Sandbox Code Playgroud) 想知道最简单的方法是将下面的数据帧索引拆分为子串,并将第二块设置为新数据帧中的列.
Input:
Ask Bid Last Open_Int Vol
245.0P 11.36 11.15 10.41 37 30
225.0C 10.31 10.23 10.3 52 5
224.5C 10.78 10.67 12 72 72
223.5C 11.68 11.56 12.68 89 59
244.5P 10.83 10.64 8.65 118 22
244.0P 10.34 10.15 9.93 137 10
Output:
Ask Bid Last Open_Int Vol Type
245.0P 11.36 11.15 10.41 37 30 P
225.0C 10.31 10.23 10.3 52 5 C
224.5C 10.78 10.67 12 72 72 C
223.5C 11.68 11.56 12.68 89 59 C
244.5P 10.83 …
Run Code Online (Sandbox Code Playgroud) 我有一个MySQL数据库,我想存储在外部4TB驱动器上,但是当我将数据库复制到它时,服务器无法重新启动.我发现它与扇区大小问题有关.
这让我有理由跳到NoSQL.我喜欢CouchDB的易用性和HTTP API,但数据库根本不适用于没有压缩的我.我有一个40GB的MySQL数据库,数据迁移甚至不到完成的十分之一,它已经超过100GB.
有什么我想念的吗?我/我可以启用压缩吗?
谢谢!