我将AWS S3,Glue和Athena用于以下设置:
S3->胶水->雅典娜
我的原始数据作为CSV文件存储在S3上。我正在使用Elu的Glue,并且正在使用Athena来查询数据。
由于我使用的是Athena,因此我想将CSV文件转换为Parquet。我正在使用AWS Glue来执行此操作。这是我正在使用的当前过程:
胶水作业只允许我一次转换一张表。如果我有许多CSV文件,则此过程很快变得难以管理。是否存在使用AWS Glue或某些其他AWS服务将许多 CSV文件转换为Parquet 的更好方法,也许是“正确”的方法?
我有一组存储在pandas数据帧中的数据.我正在尝试使用seaborn的pointplot()创建一个带有连接点的多系列散点图.每个系列都有不同的(x,y)值,它们在我的数据框中存储为浮点数.每行都有一个标签,区分每个系列.我正在使用Python 2.7,seaborn版本0.5.1和matplotlib版本1.4.3.
我设法找到的一切告诉我,我可以通过以下方式实现这一目标:
import matplotlib.pyplot as plt
import seaborn as sns
# Suppose my dataframe is called 'df', with columns 'x', 'y', and 'label'.
sns.pointplot(x = 'x', y = 'y', hue = 'label', data = df)
Run Code Online (Sandbox Code Playgroud)
但是,这会导致一些奇怪的行为:
我尝试通过将数据框分成几部分来解决这个问题.这并不理想,因为我可能有大约10个系列同时绘制,我宁愿不手动分割数据:
df1 = df[df.test_type.values == "label 1"]
df2 = df[df.test_type.values == "label 2"]
ax = sns.pointplot(x = 'x',y='y', color = "blue", data = df1)
sns.pointplot(x = 'x', y = 'y', data = df2, color="red", ax = ax)
Run Code Online (Sandbox Code Playgroud)
在这种情况下,所有点都被连接并且它们被适当地着色,但是再次,x轴显示出非常奇怪的行为.即使我的每个数据框的x值不同,图也会对齐它们,使它们看起来是一样的.
现在,我不确定如何干净地发布我的输出/绘图,但我可以使用以下内容重新创建一些问题: …