从一个列表中随机创建两个列表

Joh*_*own 4 python numpy pandas

我正在使用 Pandas 从 CSV 文件中导入大量数据,一旦读取,我将其格式化为仅包含数字数据。然后返回列表中的列表。然后每个列表包含大约 140k 位的数据。numericalData[][].

从这个列表中,我希望创建TestingTraining Data. 对于我的测试数据,我希望有 30% 的读取数据numericalData,因此我使用以下代码;

testingAmount = len(numericalData0[0]) * trainingDataPercentage / 100
Run Code Online (Sandbox Code Playgroud)

很好用。然后,我使用 numpy 从导入的每一列中选择该数量的数据numericalData

testingData.append(np.random.choice(numericalData[x], testingAmount)  )      
Run Code Online (Sandbox Code Playgroud)

然后返回一个包含 38 列(循环运行)的样本,其中每列有大约 49k 个从我导入的numericalData.

问题是,我trainingData需要保留其他 70% 的数据,但我不确定如何做到这一点。我尝试比较 my 中的每个元素testingData,如果两个元素不相等,则将其添加到我的trainingData. 这导致了错误并且不起作用。接下来,我尝试testingData从导入的数据中删除选定的项,然后将该新列保存到我的trainingData,唉,这不起作用。

过去一周我只使用 python 工作,所以我对现在尝试什么有点迷茫。

Dmi*_*try 5

之后您可以使用random.shuffle和拆分列表。以玩具为例:

import random
data = range(1, 11)

random.shuffle(data)

training = data[:5]
testing = data[5:]
Run Code Online (Sandbox Code Playgroud)

要获取更多信息,请阅读文档