我的团队目前正在使用 Pandas 为业务分析师开发一个相当快速的集群作业。我们计划托管一个本地服务器,最终用户可以在其中输入一些在例程执行期间使用的参数,这将访问内部数据库,然后返回一个 CSV 文件。
Jupyter 服务器对我们来说是理想的选择,但问题是我们不能让用户编辑底层代码——他需要做的就是提供参数并开始执行作业。我认为,将其转换为 HMTL 会使一切变得静态,这意味着我们无法按需提供更新的数据。
计划 B 只是制作一个小型 django 应用程序,但我想知道是否有办法用 Jupyter 本身来完成我所需要的,或者对于类似的用例是否有更好的替代方案?我们甚至不打算显示任何小部件,只为用户提供原始数据输出。
提前致谢
我认为 AWS Glue 应该是一个相对简单的用例,但是我在弄清楚如何实现它时遇到了很多麻烦。
我有一个 Kinesis Firehose 作业将流数据转储到 S3 存储桶中。这些文件由一系列离散的 Web 浏览事件组成,这些事件表示为具有不同结构的 JSON 文档(例如,一个文档可能有字段“date”但没有字段“name”,而另一个可能有“name”但没有“date” )。
我希望在这些文件上每小时运行一次 ETL 作业,这些文件的细节与手头的问题无关。
我正在尝试运行 S3 数据目录爬虫,我遇到的问题是 Kinesis 输出格式本身不是有效的 JSON,这让我感到困惑。相反,它是一堆由换行符分隔的 JSON 文档。爬虫可以自动识别和解析 JSON 文件,但无法解析这个。
我想写一个 lambda 函数来“修复” Firehose 文件,由它在存储桶上的创建触发,但这听起来像是两个应该整齐地组合在一起的廉价解决方法。
另一种选择是完全绕过数据目录并在 Glue 脚本本身中进行必要的转换,但我不知道如何开始。
我错过了什么吗?有没有更简单的方法来解析 Firehouse 输出文件,或者,如果失败,绕过对爬虫的需求?
欢呼并提前致谢