背景(对不起,这么久):
我的任务是维护一个收集各种在线广告数据的ETL,每天大约20-30 MB,并将其附加到MySQL的表中.外面的承包商用Pentaho Spoon建造了ETL(厨房,水壶?).ETL包含大约250个工作和转换(.ktr,.kjb),每个步骤大约5到25个步骤.在这个大型过程中出现问题是很常见的.我发现编写R脚本来进行转换和加载效率更高.实际上,我认为除了使用RMySQL(即plyr!)调用之外,ETL可以减少到远低于1000行代码.也许Python将用于从Web中提取数据.
我对R的使用导致了一些阻力.设计ETL的计算机程序员不知道R因此如果我离开就无法调用,而且还有很多时间投入到Spoon ETL中.此外,外行人可以更容易地在Spoon中直观地遵循步骤,而不是在R脚本中.就我而言,我认为我们正陷入ETL的困境.但是,由于我没有计算机科学的背景,所以我在这个问题上没有很大的发言权.
如果您对以下内容有任何见解,请发表评论.请知道我已经研究了几个月并阅读了很多意见,但没有像SO通常提供的那样简洁或可靠:
R被一些公司称为不具备可扩展性.我认为相反的主要是因为日志功能.Spoon具有有限的纯日志记录输出,而所有R脚本都可以存入日常日志.修复和避免.ktrs中的错误非常繁琐,但通过设置标志和/或搜索R日志很容易.有什么想法吗?
这导致了一个重要的问题.像Pentaho这样的ETL有什么意义?这篇文章我需要ETL吗?,让我相信,如果你使用R或其他所谓的OOL,没有理由拥有像Pentaho这样的工具.有人可以确认一下吗?我真的需要第二个意见.如果是这样,谁使用像Pentaho这样的工具?是否只是没有编程背景的人或其他人?我确实看到了很多关于SO的Pentaho问题.
确实有很多人使用R而不是Pentaho,对吗?这个http://www.kdnuggets.com/2012/05/top-analytics-data-mining-big-data-software.html看起来如此.说实话,我很惊讶Pentaho是第五名,这让我更加惊讶谁使用了Pentaho,如果我对我在工作环境中使用它的疑虑是错误的.
感谢您的回复.我并不是说对Spoon或Spoon用户有任何屈尊; 我真的很困惑,需要外界的意见.