我正在尝试制作项目项协作推荐代码.我的完整数据集可以在这里找到.我希望用户成为行,项目成为列,评级为值.
我的代码如下:
import pandas as pd
import numpy as np
file = pd.read_csv("data.csv", names=['user', 'item', 'rating', 'timestamp'])
table = pd.pivot_table(file, values='rating', index=['user'], columns=['item'])
Run Code Online (Sandbox Code Playgroud)
我的数据如下:
user item rating timestamp
0 A2EFCYXHNK06IS 5555991584 5 978480000
1 A1WR23ER5HMAA9 5555991584 5 953424000
2 A2IR4Q0GPAFJKW 5555991584 4 1393545600
3 A2V0KUVAB9HSYO 5555991584 4 966124800
4 A1J0GL9HCA7ELW 5555991584 5 1007683200
Run Code Online (Sandbox Code Playgroud)
错误是:
Traceback (most recent call last):
File "D:\python\reco.py", line 9, in <module>
table=pd.pivot_table(file,values='rating',index=['user'],columns=['item'])
File "C:\python35\lib\site-packages\pandas\tools\pivot.py", line 133, in pivot_table
table = agged.unstack(to_unstack)
File "C:\python35\lib\site-packages\pandas\core\frame.py", line …Run Code Online (Sandbox Code Playgroud) 我进行Logistic回归在二元分类问题50000 X 370 dimensions.I的数据得到了约90%的准确率.但是当我做了数据PCA +物流,我的准确度降低到10%,我感到非常震惊地看到这个结果.任何人都可以解释可能出错的地方吗?
statistics machine-learning pca logistic-regression data-science
我有这样的嵌套字典
d = {1 : {'we': 26, 'is': 112},
2 : {'tp': 26, 'fp': 91},
3 : {'pp': 23, 'kj': 74}}
Run Code Online (Sandbox Code Playgroud)
我想将其更改为数据框列,以便外部dict键成为行,其元素作为列的元素.
期望的输出:
rows col1
1 'we': 26, 'is': 112
2 'tp': 26, 'fp': 91
3 'pp': 23, 'kj': 74
Run Code Online (Sandbox Code Playgroud) dataframe ×2
pandas ×2
python ×2
data-science ×1
dictionary ×1
numpy ×1
pca ×1
scipy ×1
statistics ×1