我有一个类似于以下的单词列表
mylist=["hi", "h_ello", "how're", "you", "@list"]
Run Code Online (Sandbox Code Playgroud)
我想提取所有非字母数字字符以给出如下结果:
"h_ello", "how're", "@list"
Run Code Online (Sandbox Code Playgroud)
请注意,我在现实生活中有一个更长的列表,其中包含一些非字母数字实例,例如 ~、?、>、=、+ 等。
请问有人知道怎么做吗?谢谢
我想在我的数据集上使用决策树模型来预测二元目标变量。
我已经清理了数据并将数据分为特征和目标。
然后我将这些数据分为测试和训练:
X_train, X_test, y_train, y_test = train_test_split( feature, target, test_size = 0.2, random_state = 100)
Run Code Online (Sandbox Code Playgroud)
我已将训练数据分为训练和验证:
X_train, X_test, y_train, y_val = train_test_split( feature, target, test_size = 0.2, random_state = 100)
Run Code Online (Sandbox Code Playgroud)
我已经将决策树模型拟合到训练数据中:
clft = tree.DecisionTreeClassifier()
Run Code Online (Sandbox Code Playgroud)
clft.fit(X_train, y_train)
我用这个模型来预测看不见的数据,即测试数据。这产生了模型的准确性。
predictTree=clft.predict(X_test)
print (metrics.accuracy_score(predictTree, y_test))
Run Code Online (Sandbox Code Playgroud)
然后,我想使用嵌套交叉验证来提高准确性并优化模型:
#set parameter grid
parameter_grid = {'max_depth': [1, 2, 3, 4, 5],
'max_features': [1, 2, 3, 4]}
#specifiy cross validation
cross_validation = StratifiedKFold(n_splits=10)
cross_validation.get_n_splits(X_train, y_train)
#finds optimised parameters
grid_search = GridSearchCV(clft, param_grid = parameter_grid,
cv = cross_validation) …Run Code Online (Sandbox Code Playgroud) 我有一个 numpy 数组 =
[1,6,7,9,3,5]
Run Code Online (Sandbox Code Playgroud)
和第二个 numpy 数组 =
[3,5,8,9,2]
Run Code Online (Sandbox Code Playgroud)
我想将这两个数组合并在一起:
[1,6,7,9,3,5,3,5,8,9,2]
Run Code Online (Sandbox Code Playgroud)
然后删除 numpy 数组中的重复项以获得:
[1,6,7,9,3,5,8,2]
Run Code Online (Sandbox Code Playgroud)
我想尽可能多地保留数组一并取出数组二中没有出现在数组一中的元素,然后附加这些元素。
我不确定以下是否更有意义:
我尝试过使用各种循环,但这些循环似乎主要适用于列表,我也尝试过使用set()但它对numpy数组进行排序,我想保留随机订单形式。