小编ped*_*gfp的帖子

我的团队目前正在使用 Pandas 为业务分析师开发一个相当快速的集群作业。我们计划托管一个本地服务器，最终用户可以在其中输入一些在例程执行期间使用的参数，这将访问内部数据库，然后返回一个 CSV 文件。

Jupyter 服务器对我们来说是理想的选择，但问题是我们不能让用户编辑底层代码——他需要做的就是提供参数并开始执行作业。我认为，将其转换为 HMTL 会使一切变得静态，这意味着我们无法按需提供更新的数据。

计划 B 只是制作一个小型 django 应用程序，但我想知道是否有办法用 Jupyter 本身来完成我所需要的，或者对于类似的用例是否有更好的替代方案？我们甚至不打算显示任何小部件，只为用户提供原始数据输出。

提前致谢

7
推荐指数

3
解决办法

7590
查看次数

我认为 AWS Glue 应该是一个相对简单的用例，但是我在弄清楚如何实现它时遇到了很多麻烦。

我有一个 Kinesis Firehose 作业将流数据转储到 S3 存储桶中。这些文件由一系列离散的 Web 浏览事件组成，这些事件表示为具有不同结构的 JSON 文档（例如，一个文档可能有字段“date”但没有字段“name”，而另一个可能有“name”但没有“date” ）。

我希望在这些文件上每小时运行一次 ETL 作业，这些文件的细节与手头的问题无关。

我正在尝试运行 S3 数据目录爬虫，我遇到的问题是 Kinesis 输出格式本身不是有效的 JSON，这让我感到困惑。相反，它是一堆由换行符分隔的 JSON 文档。爬虫可以自动识别和解析 JSON 文件，但无法解析这个。

我想写一个 lambda 函数来“修复” Firehose 文件，由它在存储桶上的创建触发，但这听起来像是两个应该整齐地组合在一起的廉价解决方法。

另一种选择是完全绕过数据目录并在 Glue 脚本本身中进行必要的转换，但我不知道如何开始。

我错过了什么吗？有没有更简单的方法来解析 Firehouse 输出文件，或者，如果失败，绕过对爬虫的需求？

欢呼并提前致谢

5
推荐指数

1
解决办法

3573
查看次数

web ×1

小编ped_gfp的帖子