小编Sud*_*jee的帖子

如何在 Pandas 中执行等效的相关子查询

我有一个来自 Kaggle Titanic 比赛的 CSV 文件,如下所示。此文件的记录格式由以下列描述:PassengerId、Survived、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked。我想对这个文件中的数据进行分析,看看是否跟团的乘客有更好的存活率。为此,我假设组中所有乘客的 Ticket 值都相同。

我在 MS Access 中加载了 CSV,并执行以下查询以获得所需的结果集:

SELECT a.Ticket, a.PassengerId, a.Survived
FROM train a
WHERE 1 < (SELECT COUNT(*) FROM train b WHERE b.Ticket = a.Ticket)
ORDER BY a.Ticket
Run Code Online (Sandbox Code Playgroud)

如果不编写循环,我将无法提取与上述相同的结果集。

python pandas

5
推荐指数
1
解决办法
3040
查看次数

特征缩放的矢量化

我想用 2 列缩放矩阵 (X)。我正在使用均值归一化,并在 Octave 中写了以下几行:

X_norm = X
mu = mean(X);
sigma = std(X);
X_norm(:,1) = (X_norm(:,1) .- mu(:,1)) ./ sigma(:,1);
X_norm(:,2) = (X_norm(:,2) .- mu(:,2)) ./ sigma(:,2); 
Run Code Online (Sandbox Code Playgroud)

你能告诉我一种更简洁的方法来矢量化这些计算吗?

我通过与结果进行比较来检查我的代码zscore(X)并且它们匹配 - 即sum(X_norm - zscore(X))返回了我 0 0。

我被限制不使用zscore(),因此问题。

样本数据如下:

2104      3
1600      3
2400      3
1416      2
3000      4
1985      4
1534      3
1427      3
1380      3
1494      3
1940      4
2000      3
1890      3
4478      5
1268      3
2300      4
1320      2
1236 …
Run Code Online (Sandbox Code Playgroud)

vectorization octave

2
推荐指数
1
解决办法
3695
查看次数

标签 统计

octave ×1

pandas ×1

python ×1

vectorization ×1