Chu*_*urk 6 database stored-procedures data-mining data-processing database-performance
我不是在征求意见,而是在征集文件.
我们有很多数据文件(XML,CSV,Plantext等),需要处理它们,数据挖掘它们.
领导数据库人员建议使用存储过程来完成任务.基本上我们有一个临时表,文件被序列化,并保存到clob或XML列中.然后从那里他建议进一步使用存储过程来处理文件.
我是一名具有数据库背景的应用程序开发人员,在应用程序开发方面更是如此,我可能会有偏见,但在数据库中使用此逻辑似乎是一个坏主意,我无法找到任何文档证明或不赞成我所指的把汽车放在火车轨道上以拉动一大堆货物.
所以我的问题是:当我们谈论正则表达式搜索,搜索和替换clob,dom遍历,递归中的数据时,DB(Oracle,DB2,MySQL,SqlServer)的表现如何?与Java,PHP或C#等编程语言相比,在同一问题上.
编辑
所以我正在寻找的是与DBMS相比特定编程语言的比较/运行时分析的文档,特别是对于字符串搜索和替换,正则表达式搜索和替换.XML Dom遍历.递归方法调用的内存使用情况.特别是当遇到10-100的GB数据时,它们的扩展程度如何.
听起来你要把业务逻辑扔进存储层。对于您描述的操作,您不应使用数据库。由于缺乏灵活性,您可能最终会尝试寻找解决方案来解决问题,或者创建奇怪的解决方案。
还要记住可维护性。以后有多少人能够维护该解决方案?
说到速度,选择正确的编程语言,您将能够在多个线程中处理数据。最后,你对汽车和火车的感觉是对的;)