我的数据:
State N Var1 Var2
Alabama 23 54 42
Alaska 4 53 53
Arizona 53 75 65
Run Code Online (Sandbox Code Playgroud)
Var1并且Var2是州级的汇总百分比值。N是每个状态的参与者数量。我想之间运行的线性回归Var1和Var2与所述考虑的N作为重量与在Python 2.7 sklearn。
一般线路是:
fit(X, y[, sample_weight])
Run Code Online (Sandbox Code Playgroud)
假设数据被加载到df使用 Pandas 并且N变成了df["N"],我是简单地将数据放入下一行还是我需要在使用它之前以某种方式处理 N 就像sample_weight在命令中一样?
fit(df["Var1"], df["Var2"], sample_weight=df["N"])
Run Code Online (Sandbox Code Playgroud) 我有一个 pandas 数据框,想要选择其中一列的值以另一列的值开头的行。我已经尝试过以下方法:
import pandas as pd
df = pd.DataFrame({'A': ['apple', 'xyz', 'aa'],
'B': ['app', 'b', 'aa']})
df_subset = df[df['A'].str.startswith(df['B'])]
Run Code Online (Sandbox Code Playgroud)
但它出错了,我发现的这个解决方案也没有帮助。
KeyError: "None of [Float64Index([nan, nan, nan], dtype='float64')] are in the [columns]"
Run Code Online (Sandbox Code Playgroud)
np.where(df['A'].str.startswith(df['B']), True, False)一切也从这里回归。True
我有一个大的 2D numpy 数组,想在其中找到满足条件的一维数组的索引:例如,至少有一个大于给定阈值 x 的值。
我已经可以通过以下方式做到这一点,但有没有更短、更有效的方法来做到这一点?
import numpy
a = numpy.array([[1,2,3,4,5], [1,2,3,4,20], [1,2,2,4,5]])
indices = []
i = 0
x = 10
for item in a:
if any(j > x for j in item):
indices.append(i)
i += 1
print(indices) # gives [1]
Run Code Online (Sandbox Code Playgroud) python ×3
arrays ×1
docker ×1
docker-image ×1
filter ×1
matrix ×1
numpy ×1
pandas ×1
python-2.7 ×1
regression ×1
scikit-learn ×1
string ×1