小编5ar*_*ase的帖子

如果该字段前面有$符号,如何检查某个字段是否大于某个数字?

给定一个employee.txt以格式(Firstname,Lastname,Salary)调用的文件,其中space为字段分隔符:

Foo Bar $1,000
First Last $5,550
Abc Def $3,000
Stack Overflow $6000
Help Please $4700
Run Code Online (Sandbox Code Playgroud)

我想打印第三个字段大于$ 4,000的行.期望的输出:

First Last $5,550
Stack Overflow $6000
Help Please $4700
Run Code Online (Sandbox Code Playgroud)

我不确定如何检查字段是否大于4000,例如,使用$,中的字段.

我已经尝试使用sed替换$,空白然后重定向到awk但我希望输出包含$,原始.

这可行awk吗?

bash awk

5
推荐指数
1
解决办法
526
查看次数

不使用train_test_split方法对sklearn的SVM进行数据预处理

我使用 Inception 为大约 11000 个视频生成了 1000 个特征(对象的概率)。这些视频已按流派分类,我希望 SVM 预测视频属于哪种流派。

我想将 SVM 应用于这些特征向量,但到目前为止我读过的每个教程都使用train_test_splitsklearn.model_selection.

我的数据看起来如何:

  • 我将数据集分成两个 csv 文件,其中包含约 9000 个训练记录和约 2000 个测试记录(每个记录有 1000 个特征)。它的格式为videoId,feature1,feature2,...,feature1000

  • 我有以流派为标题的文件,例如Training/education.txt用于培训和Testing/education.txt测试。每个文件都包含videoId属于该类型的 s。

我对数据科学和 pandas、sklearn 等库很陌生,所以我不知道应该如何准备这些数据。我一直在遵循本指南

import pandas as pd  

bankdata = pd.read_csv("D:/Datasets/bill_authentication.csv")  
X = bankdata.drop('Class', axis=1)  
y = bankdata['Class']  
from sklearn.model_selection import train_test_split  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)  
Run Code Online (Sandbox Code Playgroud)

我将如何利用我所拥有的东西来获得X_train, X_test, y_train, ?由于目前我的数据设置方式,y_test我无法使用类似的方法。train_test_split

svm pandas scikit-learn

1
推荐指数
1
解决办法
1410
查看次数

标签 统计

awk ×1

bash ×1

pandas ×1

scikit-learn ×1

svm ×1