我想找到点和预测线之间的距离.理想情况下,我希望结果显示在包含距离的新列中,称为"距离".
我的进口:
import os.path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression
%matplotlib inline
Run Code Online (Sandbox Code Playgroud)
我的数据样本:
idx Exam Results Hours Studied
0 93 8.232795
1 94 7.879095
2 92 6.972698
3 88 6.854017
4 91 6.043066
5 87 5.510013
6 89 5.509297
Run Code Online (Sandbox Code Playgroud)
我的代码到目前为止:
x = df['Hours Studied'].values[:,np.newaxis]
y = df['Exam Results'].values
model = LinearRegression()
model.fit(x, y)
plt.scatter(x, y,color='r')
plt.plot(x, model.predict(x),color='k')
plt.show()
Run Code Online (Sandbox Code Playgroud)
任何帮助将不胜感激.谢谢
python numpy machine-learning linear-regression scikit-learn
我有一个数据框(称为“df”),其中包含一个名为“成绩”的列。此列包含成绩列表。此列中的数据属于“对象”类型。
student_id grades
0 11 [A,A,B,A]
1 12 [B,B,B,C]
2 13 [C,C,D,B]
3 21 [B,A,C,B]
Run Code Online (Sandbox Code Playgroud)
我希望创建一个名为“maths_grades”的新列,它将存储成绩列表中的第三个元素。
示例输出:
student_id grades maths_grade
0 11 [A,A,B,A] B
1 12 [B,B,B,C] B
2 13 [C,C,D,B] D
3 21 [B,A,C,B] C
Run Code Online (Sandbox Code Playgroud)
最好的办法是什么?