我正在使用大型csv文件,最后一列的下一行有一个文本字符串,我希望通过特定的分隔符进行拆分.我想知道是否有一种简单的方法可以使用pandas或python来做到这一点?
CustNum CustomerName ItemQty Item Seatblocks ItemExt
32363 McCartney, Paul 3 F04 2:218:10:4,6 60
31316 Lennon, John 25 F01 1:13:36:1,12 1:13:37:1,13 300
Run Code Online (Sandbox Code Playgroud)
我想的空间分割(' ')
,然后结肠(':')
在Seatblocks
列,但每个单元格将导致不同的列数.我有一个重新排列列的功能,所以Seatblocks
列位于工作表的末尾,但我不知道该怎么做.我可以使用内置text-to-columns
函数和快速宏在excel中完成它,但我的数据集有太多的记录供excel处理.
最终,我想记录约翰列侬的记录并创建多条线,每组座位的信息都在一条单独的线上.
我正在处理一组如下所示的数据:
team runs_scored date
LAN 3 2014-03-22
ARI 1 2014-03-22
LAN 7 2014-03-23
ARI 5 2014-03-23
LAN 1 2014-03-30
SDN 3 2014-03-30
Run Code Online (Sandbox Code Playgroud)
我试图在这个集合上测试一个预测模型,其中一个输入参数是runs_scored
t-1 的方差.换句话说,为了预测第四次观察的结果变量,我需要LAN
基于数据集中先前观察的方差.
我可以计算累积平均值和总和,但我无法弄清楚如何计算数据集中的累积方差.我正在进行大部分数据操作dplyr
,但是如果它能得到我需要的东西,我不反对使用替代解决方案