小编5ar*_*ase的帖子

如果该字段前面有$符号,如何检查某个字段是否大于某个数字？

给定一个employee.txt以格式(Firstname,Lastname,Salary)调用的文件,其中space为字段分隔符:

Foo Bar $1,000
First Last $5,550
Abc Def $3,000
Stack Overflow $6000
Help Please $4700

Run Code Online (Sandbox Code Playgroud)

我想打印第三个字段大于$ 4,000的行.期望的输出:

First Last $5,550
Stack Overflow $6000
Help Please $4700

Run Code Online (Sandbox Code Playgroud)

我不确定如何检查字段是否大于4000,例如,使用$和,中的字段.

我已经尝试使用sed替换$和,空白然后重定向到awk但我希望输出包含$和,原始.

这可行awk吗？

bash awk

5ar*_*ase

2017 12-29

5
推荐指数

1
解决办法

526
查看次数

不使用train_test_split方法对sklearn的SVM进行数据预处理

我使用 Inception 为大约 11000 个视频生成了 1000 个特征（对象的概率）。这些视频已按流派分类，我希望 SVM 预测视频属于哪种流派。

我想将 SVM 应用于这些特征向量，但到目前为止我读过的每个教程都使用train_test_split了sklearn.model_selection.

我的数据看起来如何：

我将数据集分成两个 csv 文件，其中包含约 9000 个训练记录和约 2000 个测试记录（每个记录有 1000 个特征）。它的格式为videoId,feature1,feature2,...,feature1000
我有以流派为标题的文件，例如Training/education.txt用于培训和Testing/education.txt测试。每个文件都包含videoId属于该类型的 s。

我对数据科学和 pandas、sklearn 等库很陌生，所以我不知道应该如何准备这些数据。我一直在遵循本指南：

import pandas as pd  

bankdata = pd.read_csv("D:/Datasets/bill_authentication.csv")  
X = bankdata.drop('Class', axis=1)  
y = bankdata['Class']  
from sklearn.model_selection import train_test_split  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)

Run Code Online (Sandbox Code Playgroud)

我将如何利用我所拥有的东西来获得X_train, X_test, y_train, ？由于目前我的数据设置方式，y_test我无法使用类似的方法。train_test_split

svm pandas scikit-learn

5ar*_*ase

lucky-day

1
推荐指数

1
解决办法

1410
查看次数