如何使用动态大小的输入集合来处理机器学习问题?

use*_*448 7 machine-learning data-mining relational-database feature-extraction neural-network

我正在尝试使用机器学习将数据样本分类为质量好坏.

数据样本存储在关系数据库中.示例包含属性id,名称,向上投票数(用于好/坏质量指示),注释数量等.还有一个表具有指向数据样本id的外键的项.这些物品包含重量和名称.所有项目一起指向数据样本表征数据样本,这通常可以帮助对数据样本进行分类.问题是,指向一个外键的项目数对于不同的样本是不同的.

我想将机器学习输入(例如神经网络)与指向特定数据样本的项目一起提供.问题是我不知道项目的数量,所以我不知道我想要多少输入节点.

Q1)当输入维度是动态的时,是否可以使用神经网络?如果是这样,怎么样?

Q2)当列表的长度未知时,是否有任何最佳实践为网络提供元组列表?

Q3)是否有将机器学习应用于关系数据库的最佳实践?

tem*_*mpi 5

有一个称为归纳逻辑编程的机器学习领域,专门处理关系数据.在您的情况下,如果您希望使用神经网络,您可能希望将关系数据集转换为命题数据集(单个表) - 即具有固定数量属性的表,可以将其输入神经网络或任何其他命题学习者.这些技术通常构造所谓的一阶特征,从二级表中捕获数据.此外,你只需要为你的诱导学生做到这一点 - 一旦你的特点和学习者,您可以对即时新的数据点评估这些功能.

以下是可用于此类问题的一些技术的概述文件.如果您还有其他问题,请随时提出.


Her*_*utt 1

我不知道所有问题的答案,但这也许会有所帮助:

Q1)您可以尝试使用某种降​​维方法,例如主成分分析(PCA),将所有输入对象映射到一个公共维度。为此,您必须选择长度为 N 的所有数据点,并仅使用这些数据点来学习从维度 N 到维度 M 的映射。

示例:假设您的输入的大小可以为 3、4 和 5。您需要学习从大小 5 到大小 3 的映射,您可以使用大小为 5 的所有点以及来自的映射来学习该映射尺寸 4 到尺寸 3,您可以使用尺寸为 4 的所有点来学习。

不过,我并不期望这种方法能够很好地发挥作用。

Q2)如果问题1解决了,就不应该再成为问题了。

Q3)我正在推测这一点,但也许您可以将数据库映射到图表,并使用大量用于在图表中学习的算法?