Java支持PMML

Osc*_*car 9 java xml data-mining prediction pmml

我是PMML的新手:Predictive Model Markup Language(www.dmg.org),我想知道是否有某种Java支持(开源/专业)用于创建/解析PMML文件.

最初,我只考虑从Java环境以编程方式创建/解析PMML文件的可能性.

我一直在"谷歌搜索",我发现了几种可能性:

开源:

来自Java.

  • JDM.javax.datamining.好像死了?有人有更多信息?

专业的.

DIY

  • 使用XML Java库并自己构建PMML文件的解析器/编写器

我感谢您的所有意见.

提前致谢

奥斯卡

Mea*_*her 1

您应该意识到答案可能取决于您想要使用的模型元素。创建 PMML 和解析 PMML 的最佳选择也很可能来自不同的软件包。我假设“创建 PMML”是指文档而不是模型。我从未听说过有人将自动模型拟合与执行相集成,但也许它已经存在了。当然,PMML 模型可以使用 SOAP 来传递。

我无法谈论其他项目,但 Zementis 提供的产品(称为Adapa)仅用于执行PMML。该产品假设有一个模型拟合应用程序,该应用程序将通过将拟合模型导出到 PMML 来进行创建。已经有很多成熟的模型拟合应用程序,所以我认为这是一个合理的假设。

我使用的版本(3.6)通常很快,但如果没有特别大的堆,它无法处理典型随机森林大小(500+棵树)的集合。我认为他们可能已经在新版本中修复了这个问题。虽然没有做广告,但 Zementis 似乎没有提供一些模型,即文本模型、序列、基线模型或时间序列(PMML 标准目前仅具有指数平滑)。我的版本也没有 K 最近邻,但我听说更新的版本有。

除非您正在考虑集成拟合和执行(在这种情况下您应该考虑在线学习),我的建议是按顺序考虑这些问题:

  1. 我有兴趣使用什么模型类型?
  2. 我更喜欢在哪些应用程序中构建模型?
  3. 最后我将如何执行这个以及我在这方面有什么要求(网络服务、云、性能等)?

如果您查看 DMG 小组的成员列表,您会发现许多商业供应商要么位于供应方(例如 SAS、SPSS、Togaware、Rapid-I),要么位于需求方(无法列出)。

在您的列表中,您也没有提到 Weka,但它们也执行一些 PMML 模型,并且有基于 R/Java 的解决方案,因此您可以在 Java 环境中执行PMML->R 导入(请参阅 fileToXMLNode)(但您也可以只执行R)。

最后,如果您心中有一个非常具体的模型,并且您了解“执行它”在数学上的含义,那么您自己构建您需要的模型应该不会太困难。