我刚刚设置了一个小的hadoop集群(使用3个ubuntu机器和apache hadoop 2.2.0),现在我正在尝试运行python流工作.
运行测试作业我遇到以下问题:
几乎所有的map任务都被标记为成功,但注意到Container已被杀死.
在联机界面上,地图作业的日志显示:
Progress 100.00
State SUCCEEDED
但是注意它几乎每次尝试(~200)
容器被ApplicationMaster杀死.
或
由ApplicationMaster杀死的容器.根据要求杀死容器.退出代码是143
在与该尝试相关联的日志文件中,我可以看到一个日志,说任务'attempt_xxxxxxxxx_0'已完成.
我还获得3次尝试用相同的日志,只有3已经
国家镇静
它们便会被杀死的工作.
对于所有作业/尝试,stderr输出为空.
在查看应用程序主日志并执行其中一次成功(但已杀死)尝试后,我会找到以下日志:
所有的尝试都编号为xxxx_0所以我认为它们不会因为推测性执行而被杀死.
我应该担心吗?是什么导致容器被杀?任何建议将不胜感激!
我试图在熊猫中绘制一些数据,并且内置的绘图功能可以方便地绘制每列一行.我想要做的是根据我制作的分类手动为每一行分配颜色.
以下作品:
df = pd.DataFrame({'1': [1, 2, 3, 4], '2': [1, 2, 1, 2]})
s = pd.Series(['c','y'], index=['1','2'])
df.plot(color = s)
Run Code Online (Sandbox Code Playgroud)
但是当我的索引是整数时它不再起作用并抛出KeyError:
df = pd.DataFrame({1: [1, 2, 3, 4], 2: [1, 2, 1, 2]})
s = pd.Series(['c','y'], index=[1,2])
df.plot(color = s)
Run Code Online (Sandbox Code Playgroud)
我理解它的方式是,当使用整数索引时,它必须从0开始.这是我的猜测,因为以下工作原理:
df = pd.DataFrame({0: [1, 2, 3, 4], 1: [1, 2, 1, 2]})
s = pd.Series(['c','y'], index=[1,0])
df.plot(color = s)
Run Code Online (Sandbox Code Playgroud)
我的问题是:
编辑:
我意识到即使在第一种情况下,代码也没有按照我的预期去做.似乎pandas仅匹配DataFrame和Series的索引,如果两者都是从0开始的整数索引.如果不是这种情况,则抛出KeyError或者如果索引是str,则使用元素的顺序.
它是否正确?有没有办法匹配Series和DataFrame索引?或者我必须确保以正确的顺序传递颜色列表?
我正在 pandas 中绘制时间序列,索引的类型为时间(意味着它不包含日期信息)。我想要做的是将 xtick 标签格式化为仅显示小时而不显示分钟和秒。
import datetime
import random
import pandas as pd
from matplotlib import pylab as plt
%matplotlib inline
#generate a list of random datetime.times
random_time = lambda: (datetime.datetime.strptime("00:00:00", '%H:%M:%S') + datetime.timedelta(minutes=random.randrange(1440))).time()
times = [random_time() for x in range(20)]
#create data frame
df = pd.DataFrame({'times': times, 'counts': [random.randrange(10) for x in range(len(times))]})
df.set_index('times', inplace=True)
df.plot()
#I want tick labels at sensible places, only two here as illustration
custom_tick_locs = [datetime.time(hour=8), datetime.time(hour=16)]
plt.xticks(custom_tick_locs)
Run Code Online (Sandbox Code Playgroud)
产生以下情节:
我的问题是:如何格式化 xtick 标签以仅显示小时?(或者一般的任何其他格式?)
我知道使用日期时间(包括两者和时间)会让事情变得容易得多。但是,由于我要叠加几天的数据,因此我只使用时间。显然,可能有一种方法可以实现这种叠加(这样下午 1 …