我有一个来自 Kaggle Titanic 比赛的 CSV 文件,如下所示。此文件的记录格式由以下列描述:PassengerId、Survived、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked。我想对这个文件中的数据进行分析,看看是否跟团的乘客有更好的存活率。为此,我假设组中所有乘客的 Ticket 值都相同。
我在 MS Access 中加载了 CSV,并执行以下查询以获得所需的结果集:
SELECT a.Ticket, a.PassengerId, a.Survived
FROM train a
WHERE 1 < (SELECT COUNT(*) FROM train b WHERE b.Ticket = a.Ticket)
ORDER BY a.Ticket
Run Code Online (Sandbox Code Playgroud)
如果不编写循环,我将无法提取与上述相同的结果集。
我想用 2 列缩放矩阵 (X)。我正在使用均值归一化,并在 Octave 中写了以下几行:
X_norm = X
mu = mean(X);
sigma = std(X);
X_norm(:,1) = (X_norm(:,1) .- mu(:,1)) ./ sigma(:,1);
X_norm(:,2) = (X_norm(:,2) .- mu(:,2)) ./ sigma(:,2);
Run Code Online (Sandbox Code Playgroud)
你能告诉我一种更简洁的方法来矢量化这些计算吗?
我通过与结果进行比较来检查我的代码zscore(X)并且它们匹配 - 即sum(X_norm - zscore(X))返回了我 0 0。
我被限制不使用zscore(),因此问题。
样本数据如下:
2104 3
1600 3
2400 3
1416 2
3000 4
1985 4
1534 3
1427 3
1380 3
1494 3
1940 4
2000 3
1890 3
4478 5
1268 3
2300 4
1320 2
1236 …Run Code Online (Sandbox Code Playgroud)