我试图得到我的数据集的所有功能的分数.
file_data = numpy.genfromtxt(input_file)
y = file_data[:,-1]
X = file_data[:,0:-1]
x_new = SelectKBest(chi2, k='all').fit_transform(X,y)
Run Code Online (Sandbox Code Playgroud)
在X的第一行之前有字符串格式的"功能名称",但我得到"输入包含NaN,无穷大或者对于dtype('float64')来说太大的值"错误.所以,现在X只包含数据,y包含目标值(1,-1).
如何从SelectKBest获取每个功能的分数(尝试使用单变量功能选择)?
谢谢
我有一个总值为的文件4950:
0.012345678912345678
Run Code Online (Sandbox Code Playgroud)
我使用以下方式读取文件:
a = numpy.genfromtxt(file_name, dtype=str, delimiter=',') # a.shape = (4950L, 1L) #dtype=str as I don't want to compromise accuracy
#say a == ['0.000000000000000001', -'0.000000000000000002', ...., '0.000000000004950']
Run Code Online (Sandbox Code Playgroud)
我想要实现的是获得一个b大小(100L, 100L)的矩阵:
示例(准确性很重要):
array = ['1','2','-3','-5','6','-7'] # In reality the data is up to 18 decimal places.
final_matrix = [
['0','1','2','-3'],
['-1',0,'-5','6'],
['-2','5','0','-7'],
['3','-6','7','0']
]
Run Code Online (Sandbox Code Playgroud)
实现这一目标的最有效方法是什么?