小编mar*_* s.的帖子

如何使用AWS Glue将许多CSV文件转换为Parquet

我将AWS S3,Glue和Athena用于以下设置:

S3->胶水->雅典娜

我的原始数据作为CSV文件存储在S3上。我正在使用Elu的Glue,并且正在使用Athena来查询数据。

由于我使用的是Athena,因此我想将CSV文件转换为Parquet。我正在使用AWS Glue来执行此操作。这是我正在使用的当前过程:

  1. 运行Crawler以读取CSV文件并填充数据目录。
  2. 运行ETL作业以从数据目录创建Parquet文件。
  3. 运行搜寻器以使用Parquet文件填充数据目录。

胶水作业只允许我一次转换一张表。如果我有许多CSV文件,则此过程很快变得难以管理。是否存在使用AWS Glue或某些其他AWS服务将许多 CSV文件转换为Parquet 的更好方法,也许是“正确”的方法?

amazon-s3 parquet amazon-athena aws-glue

7
推荐指数
1
解决办法
7463
查看次数

如何使用seaborn创建具有连接点的多个系列散点图?

我有一组存储在pandas数据帧中的数据.我正在尝试使用seaborn的pointplot()创建一个带有连接点的多系列散点图.每个系列都有不同的(x,y)值,它们在我的数据框中存储为浮点数.每行都有一个标签,区分每个系列.我正在使用Python 2.7,seaborn版本0.5.1和matplotlib版本1.4.3.

我设法找到的一切告诉我,我可以通过以下方式实现这一目标:

import matplotlib.pyplot as plt
import seaborn as sns

# Suppose my dataframe is called 'df', with columns 'x', 'y', and 'label'.
sns.pointplot(x = 'x', y = 'y', hue = 'label', data = df)
Run Code Online (Sandbox Code Playgroud)

但是,这会导致一些奇怪的行为:

  • 正确识别颜色,但只连接了一些
  • x轴上的数字重叠,看起来好像每个数据点都用它的值标记,而不是用适当的,干净的值来缩放它(似乎将x数据视为字符串/标签而不是浮点数).

我尝试通过将数据框分成几部分来解决这个问题.这并不理想,因为我可能有大约10个系列同时绘制,我宁愿不手动分割数据:

df1 = df[df.test_type.values == "label 1"]
df2 = df[df.test_type.values == "label 2"]

ax = sns.pointplot(x = 'x',y='y', color = "blue", data = df1)
sns.pointplot(x = 'x', y = 'y', data = df2, color="red", ax = ax)
Run Code Online (Sandbox Code Playgroud)

在这种情况下,所有点都被连接并且它们被适当地着色,但是再次,x轴显示出非常奇怪的行为.即使我的每个数据框的x值不同,图也会对齐它们,使它们看起来是一样的.

现在,我不确定如何干净地发布我的输出/绘图,但我可以使用以下内容重新创建一些问题: …

python matplotlib scatter-plot seaborn

6
推荐指数
2
解决办法
8307
查看次数