小编Sud*_*jee的帖子

如何在 Pandas 中执行等效的相关子查询

我有一个来自 Kaggle Titanic 比赛的 CSV 文件，如下所示。此文件的记录格式由以下列描述：PassengerId、Survived、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked。我想对这个文件中的数据进行分析，看看是否跟团的乘客有更好的存活率。为此，我假设组中所有乘客的 Ticket 值都相同。

我在 MS Access 中加载了 CSV，并执行以下查询以获得所需的结果集：

SELECT a.Ticket, a.PassengerId, a.Survived
FROM train a
WHERE 1 < (SELECT COUNT(*) FROM train b WHERE b.Ticket = a.Ticket)
ORDER BY a.Ticket

Run Code Online (Sandbox Code Playgroud)

如果不编写循环，我将无法提取与上述相同的结果集。

python pandas

Sud*_*jee

2017 04-24

5
推荐指数

1
解决办法

3040
查看次数

特征缩放的矢量化

我想用 2 列缩放矩阵 (X)。我正在使用均值归一化，并在 Octave 中写了以下几行：

X_norm = X
mu = mean(X);
sigma = std(X);
X_norm(:,1) = (X_norm(:,1) .- mu(:,1)) ./ sigma(:,1);
X_norm(:,2) = (X_norm(:,2) .- mu(:,2)) ./ sigma(:,2);

Run Code Online (Sandbox Code Playgroud)

你能告诉我一种更简洁的方法来矢量化这些计算吗？

我通过与结果进行比较来检查我的代码zscore(X)并且它们匹配 - 即sum(X_norm - zscore(X))返回了我 0 0。

我被限制不使用zscore()，因此问题。

样本数据如下：

2104      3
1600      3
2400      3
1416      2
3000      4
1985      4
1534      3
1427      3
1380      3
1494      3
1940      4
2000      3
1890      3
4478      5
1268      3
2300      4
1320      2
1236 …

Run Code Online (Sandbox Code Playgroud)

vectorization octave

Sud*_*jee

2017 05-09

2
推荐指数

1
解决办法

3695
查看次数