给定一个employee.txt以格式(Firstname,Lastname,Salary)调用的文件,其中space为字段分隔符:
Foo Bar $1,000
First Last $5,550
Abc Def $3,000
Stack Overflow $6000
Help Please $4700
Run Code Online (Sandbox Code Playgroud)
我想打印第三个字段大于$ 4,000的行.期望的输出:
First Last $5,550
Stack Overflow $6000
Help Please $4700
Run Code Online (Sandbox Code Playgroud)
我不确定如何检查字段是否大于4000,例如,使用$和,中的字段.
我已经尝试使用sed替换$和,空白然后重定向到awk但我希望输出包含$和,原始.
这可行awk吗?
我使用 Inception 为大约 11000 个视频生成了 1000 个特征(对象的概率)。这些视频已按流派分类,我希望 SVM 预测视频属于哪种流派。
我想将 SVM 应用于这些特征向量,但到目前为止我读过的每个教程都使用train_test_split了sklearn.model_selection.
我的数据看起来如何:
我将数据集分成两个 csv 文件,其中包含约 9000 个训练记录和约 2000 个测试记录(每个记录有 1000 个特征)。它的格式为videoId,feature1,feature2,...,feature1000
我有以流派为标题的文件,例如Training/education.txt用于培训和Testing/education.txt测试。每个文件都包含videoId属于该类型的 s。
我对数据科学和 pandas、sklearn 等库很陌生,所以我不知道应该如何准备这些数据。我一直在遵循本指南:
import pandas as pd
bankdata = pd.read_csv("D:/Datasets/bill_authentication.csv")
X = bankdata.drop('Class', axis=1)
y = bankdata['Class']
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)
Run Code Online (Sandbox Code Playgroud)
我将如何利用我所拥有的东西来获得X_train, X_test, y_train, ?由于目前我的数据设置方式,y_test我无法使用类似的方法。train_test_split