背景(对不起,这么久):
我的任务是维护一个收集各种在线广告数据的ETL,每天大约20-30 MB,并将其附加到MySQL的表中.外面的承包商用Pentaho Spoon建造了ETL(厨房,水壶?).ETL包含大约250个工作和转换(.ktr,.kjb),每个步骤大约5到25个步骤.在这个大型过程中出现问题是很常见的.我发现编写R脚本来进行转换和加载效率更高.实际上,我认为除了使用RMySQL(即plyr!)调用之外,ETL可以减少到远低于1000行代码.也许Python将用于从Web中提取数据.
我对R的使用导致了一些阻力.设计ETL的计算机程序员不知道R因此如果我离开就无法调用,而且还有很多时间投入到Spoon ETL中.此外,外行人可以更容易地在Spoon中直观地遵循步骤,而不是在R脚本中.就我而言,我认为我们正陷入ETL的困境.但是,由于我没有计算机科学的背景,所以我在这个问题上没有很大的发言权.
如果您对以下内容有任何见解,请发表评论.请知道我已经研究了几个月并阅读了很多意见,但没有像SO通常提供的那样简洁或可靠:
R被一些公司称为不具备可扩展性.我认为相反的主要是因为日志功能.Spoon具有有限的纯日志记录输出,而所有R脚本都可以存入日常日志.修复和避免.ktrs中的错误非常繁琐,但通过设置标志和/或搜索R日志很容易.有什么想法吗?
这导致了一个重要的问题.像Pentaho这样的ETL有什么意义?这篇文章我需要ETL吗?,让我相信,如果你使用R或其他所谓的OOL,没有理由拥有像Pentaho这样的工具.有人可以确认一下吗?我真的需要第二个意见.如果是这样,谁使用像Pentaho这样的工具?是否只是没有编程背景的人或其他人?我确实看到了很多关于SO的Pentaho问题.
确实有很多人使用R而不是Pentaho,对吗?这个http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html看起来如此.说实话,我很惊讶Pentaho是第五名,这让我更加惊讶谁使用了Pentaho,如果我对我在工作环境中使用它的疑虑是错误的.
感谢您的回复.我并不是说对Spoon或Spoon用户有任何屈尊; 我真的很困惑,需要外界的意见.
R 作为 ETL 工具?那是一个新的,但无论你的船是否漂浮。
不过,我想说的是,如果您可以获得 250 个作业并将 RI 转换减少到 1000 行以下,那么您的 ETL 写得不好。
除此之外,您还必须考虑可支持性和可扩展性。我认为使用 Spoon 这样的图形工具而不是 R 代码,这两者都会容易得多。
就我个人而言,我认为您被误导了,您提出的问题写得不好,但这是一个不同的论点。
关于您的观点,PDI 的日志记录非常好,如果您喜欢统一的日志,您可以随心所欲地记录几乎所有内容,全部记录到一个大型数据库表中。
ETL 不会消失,即使随着 HDFS 等非结构化数据存储池的出现,也要考虑在 R 之外完成的数据分析,如果您希望在数据之上进行报告或 OLAP,那么无论如何它仍然需要转换。
真的,使用 R 的人比使用 Pentaho 的人多吗?这是什么问题?我认为 Pentaho 指的是 PDI?这怎么能比较呢?数据分析工具与 ETL 工具,您想统计用户数量吗?嗯?另一方面,如果您指的是 R 与 Pentaho 作为一个整体,那么我猜不是。您正在查看有关 R 与 Weka 的报告,并使其符合您的 ETL 论点。一个月的星期天都洗不掉。
==编辑== 好的,目前您有大约 1000 行 R 和 Python 代码。随着老板要求的扩大,这种情况会随着时间的推移而缓慢增长,并且因为您试图在最后期限内完成,所以新代码的编写方式与您当前使用的代码一样清晰或记录良好。随着时间的推移,它会增长到 5000 行,再加上一些 python 脚本。然后有一天,你被一辆公共汽车撞了,一些新人必须进来管理你的代码……他们从哪里开始,如何进行更改?
事实上,只要有一点数据经验,任何人都可以根据需要对 PDI ETL 进行更改。因为需要一些具有足够深入的 R 知识的人才能改变你所做的事情。
ETL 工具被设计为快速且易于使用,它们在与不同系统(例如非数据库或基于文件)的数据连接方面也提供了远远超过 R 的功能,尽管我猜这就是人们求助于 python 的原因也就是说,两者都有空间,我已经在社区中看到过演示,有一个用于 PDI 的 R 插件。
最重要的是,多年来我已经看到了足够多的从 TSQL 到 ETL 的迁移,从经验中知道,尽管在代码中维护 ETL 在短期内似乎很实用,但从长远来看,它只会带来更多的痛苦。
另一方面,如果您可以将 250 个 PDI 转换编码为 1000 行 R,那么您的 ETL 可能会因前任的糟糕设计而变得臃肿。
如果您希望我对您现有的 PDI ETL 结构提出意见,也可以安排。
汤姆
| 归档时间: |
|
| 查看次数: |
7706 次 |
| 最近记录: |