我有以下问题:
我提取了一组数据,但部分数据不可用或缺失; 对于不同的项目我确定了10个参数:
param1 param2 ... param10
Item 1 1220 N/A 1000
Item 2 1300 200 ... 1000
.. ... ...
item N N/A 1000 ... 200
N ~ 1500 and half of the values are complete
Run Code Online (Sandbox Code Playgroud)
在项目的创建中有一个隐含的逻辑,所以我想用尽可能最好的期望值填写这些值.
示例:
我们假设您有2个参数和3个项目.
param1 param2
item1 400 200
item2 200 100
item3 100 N/A
Run Code Online (Sandbox Code Playgroud)
使用线性插值,您可以轻松获得param2 item3 = 50.
我的想法:
由于我有10个参数和1500个值,我想到在完成的750个项目的协方差矩阵上进行PCA(找到数据集的主要方向).
PCA将引导我到我的项目的一个主方向(最大特征值)和子组项目的子方向(较小的特征值).
例如,我想在主方向上投影缺少参数的向量.获取缺失参数的近似值.
从我的第一个例子:
param1 param2
item1 400 200
item2 200 100
item3 100 X ?
Run Code Online (Sandbox Code Playgroud)
完整矩阵:
param1 …Run Code Online (Sandbox Code Playgroud)