我在pandas中有一个数据框,其中每列具有不同的值范围.例如:
DF:
A B C
1000 10 0.5
765 5 0.35
800 7 0.09
Run Code Online (Sandbox Code Playgroud)
知道如何规范化这个数据帧的列,其中每个值介于0和1之间?
我想要的输出是:
A B C
1 1 1
0.765 0.5 0.7
0.8 0.7 0.18(which is 0.09/0.5)
Run Code Online (Sandbox Code Playgroud) 我想转换以下列表:
list = ['A','B','C']
Run Code Online (Sandbox Code Playgroud)
对于像这样的字典:
dict = {'A':0, 'B':1, 'C':2}
Run Code Online (Sandbox Code Playgroud)
我试过其他帖子的答案,没有一个对我有用.我现在有以下代码:
{list[i]: i for i in range(len(list))}
Run Code Online (Sandbox Code Playgroud)
这给了我这个错误:
unhashable type: 'list'
Run Code Online (Sandbox Code Playgroud)
任何帮助深表感谢.谢谢.
我有一个numpy数组,其中特定行的每个单元格代表一个特征的值.我将它们全部存储在100*4矩阵中.
A B C
1000 10 0.5
765 5 0.35
800 7 0.09
Run Code Online (Sandbox Code Playgroud)
知道我如何规范化这个numpy.array的行,其中每个值介于0和1之间?
我想要的输出是:
A B C
1 1 1
0.765 0.5 0.7
0.8 0.7 0.18(which is 0.09/0.5)
Run Code Online (Sandbox Code Playgroud)
提前致谢 :)
我想让我的窗体透明,所以删除边框,控件和一切只留下表格框,然后我尝试BackColor和TransparencyKey透明但它没有工作,因为BackColor不接受透明的颜色.搜索后我在msdn找到了这个:
SetStyle(ControlStyles.UserPaint, true);
SetStyle(ControlStyles.OptimizedDoubleBuffer, true);
SetStyle(ControlStyles.SupportsTransparentBackColor, true);
this.BackColor = Color.Transparent;
this.TransparencyKey = BackColor;
Run Code Online (Sandbox Code Playgroud)
不高兴它也没用.我仍然得到灰色或任何其他选定的颜色背景.
我想做的就是让窗体透明,这样我就可以使用一个背景图像,就好像它是我的窗体一样.
我在这里搜索并看到很多关于不透明度的主题,这不是我正在寻找的,也看到了一些关于这个方法我正在尝试但尚未找到答案.
希望有人能照亮我的道路.
更新:
问题解决后,图像被删除
我正在使用Spark 1.4进行研究并在内存设置方面苦苦挣扎.我的机器有16GB的内存所以没有问题,因为我的文件大小只有300MB.虽然,当我尝试使用toPandas()
函数将Spark RDD转换为panda数据帧时,我收到以下错误:
serialized results of 9 tasks (1096.9 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)
Run Code Online (Sandbox Code Playgroud)
我试图修复这个改变spark-config文件并仍然得到相同的错误.我听说这是火花1.4的一个问题,并想知道你是否知道如何解决这个问题.任何帮助深表感谢.
我有两个词典,如:
dict1 = { (1,2) : 2, (2,3): 3, (1,3): 3}
dict2 = { (1,2) : 1, (1,3): 2}
Run Code Online (Sandbox Code Playgroud)
我想要的输出是两个字典中存在的项目的两个值列表:
[2,3]
[1,2]
Run Code Online (Sandbox Code Playgroud)
我现在正在做的是这样的:
list1 = []
list2 = []
for key in dict1.keys():
if key in dict2.keys():
list1.append(dict1.get(key))
list2.append(dict2.get(key))
Run Code Online (Sandbox Code Playgroud)
这段代码运行时间太长,这不是我期待的.我想知道是否有更有效的方法吗?
我的问题很简单,我有一个数据框,我根据列对结果进行分组,得到如下大小:
df.groupby('column').size()
Run Code Online (Sandbox Code Playgroud)
现在的问题是我只想要大小大于X的那些.我想知道我是否可以使用lambda函数或类似的东西来做它?我已经尝试过了:
df.groupby('column').size() > X
Run Code Online (Sandbox Code Playgroud)
它打印出一些True和False值.
谢谢
我有一个包含三列的pandas数据框,我正在使用以下代码分别绘制每一列:
data.plot(y='value')
Run Code Online (Sandbox Code Playgroud)
这会生成如下图:
我需要的是这些值的一部分而不是全部.例如,我想绘制行500到1000而不是0到3500的值.任何想法如何告诉绘图函数只选择那些?
谢谢
我在我的Windows操作系统上使用phpmyadmin.我有一个数据库,其中一个表有100M记录,大小为20GB.我想导出此表并具有table.sql文件.每当我尝试这样做时,导出文件的大小为0字节.当我检查apache错误日志时,将显示以下内容:
Fatal error: Allowed memory size of 1073741824 bytes exhausted (tried to allocate 1066139648 bytes)
Run Code Online (Sandbox Code Playgroud)
知道如何解决这个问题?!
谢谢 :)
我是pandas的新手,我正在尝试根据一个特定列的相等性加入两个数据帧.例如,假设我有以下内容:
df1
A B C
1 2 3
2 2 2
df2
A B C
5 6 7
2 8 9
Run Code Online (Sandbox Code Playgroud)
两个数据帧都具有相同的列,并且只有一列(例如A)的值可能相等.我想要的输出是这样的:
df3
A B C B C
2 8 9 2 2
Run Code Online (Sandbox Code Playgroud)
列'A'的值在两个数据帧中都是唯一的.
谢谢
python ×8
pandas ×4
dataframe ×2
dictionary ×2
normalize ×2
apache-spark ×1
background ×1
c# ×1
fatal-error ×1
group-by ×1
join ×1
jupyter ×1
memory ×1
mysql ×1
numpy ×1
phpmyadmin ×1
plot ×1
pyspark ×1
transparent ×1
winforms ×1