还在学习并且以前使用嵌套循环完成了这项工作,但我想知道是否有一种从另一个字符串列表中过滤掉字符串列表的漂亮而精简的方法.我基本上有一个300列的pandas数据帧,如果它们有一些关键词,想要从数据帧中删除一些列.然后计划是指定列标题以生成新的数据帧.
以下是我对列表理解的尝试:
filter_array = ['hi', 'friend']
col_names = ['nice', 'to', 'meet', 'you' + 'friend']
p = [i for i in col_names if i not in filter_array]
print(p)
p = [i for i in col_names if e for e in filter_array e not in i]
print(p)
p = [i for i in col_names if e not in i for e in filter_array]
print(p)
Run Code Online (Sandbox Code Playgroud)
第一次尝试有效,但不会删除"你+朋友",其中包含过滤词,但完全等于列名,因此保留.我的最后一次尝试给出'e在分配之前被引用'
另外为什么没有pythonic的标签!:)
谢谢你们和gals
我有从数千个癌细胞中获得的数据.存储在pandas数据帧中的每个单元60个测量值.使用另一种方法将细胞分为3个群体.
我想知道哪些参数/维度最能区分/分离各个类.我是新手,有很多选择.我确实尝试过sklearn的PCA分解,但这只返回了数据集变异的2-3个原则组成部分而不是与类相关(我仍然没有找到一种方法来打印出尺寸最大的标签对于这种变化,对此的帮助将不胜感激!)
那么找到每个班级变化最大的维度的最佳方法是什么.我想象一个2参数PCA,我的课程尽可能分开.
是否也可以做同样的事情来找到相对于另一个维度(列)变化最大的维度
谢谢!