你能告诉我jupyter cluster有什么用吗?我创建了jupyter集群,并建立了它的连接。但我仍然很困惑,如何有效地使用这个集群?
谢谢
python cluster-computing python-3.x jupyter jupyter-notebook
简而言之,我有Python 3.5,但现在我也安装了3.6.
我在尝试这个:
pip3安装web3
这只为Python 3.5(我以前的版本)安装web3,我想为3.6做它?谢谢!
基本上我想要扁平化(也许不是很好的术语)
例如有数据帧:
A B C
0 1 [1,2] [1, 10]
1 2 [2, 14] [2, 18]
Run Code Online (Sandbox Code Playgroud)
我想得到的输出:
A B1 B2 B3 B4
0 1 1 2 1 10
1 2 2 14 2 18
Run Code Online (Sandbox Code Playgroud)
我试过了:
print(pd.DataFrame(df.values.flatten().tolist(), columns=['%sG'%i for i in range(6)], index=df.index))
Run Code Online (Sandbox Code Playgroud)
但没什么好处的.
希望你明白我的意思:)
给定一个 Pandas Dataframe df,列名称为“Session”和“List”:
我可以将“列表”值与“会话”的相同值分组在一起吗?
我的方法
我尝试通过创建一个新的数据帧并迭代初始数据帧的行来解决问题,同时维护一个会话计数器,如果我看到会话已更改,则该计数器会增加。
如果它没有改变,那么我会用逗号附加与该行值对应的列表值。
每当会话发生变化时,我都会使用 strip 来去掉最后一个逗号(额外的)。
初始数据框
Session List
0 1 a
1 1 b
2 1 c
3 2 d
4 2 e
5 3 f
Run Code Online (Sandbox Code Playgroud)
所需的数据框
Session List
0 1 a,b,c
1 2 d,e
2 3 f
Run Code Online (Sandbox Code Playgroud)
有人可以建议一些更有效或更简单的方法吗?
先感谢您。
我想使用前 50 列作为我的特征 X,最后一列作为我的标签 y,我该怎么做?数据在这里
我已经在使用:
import pandas as pd
df = pd.read_csv('file.csv', sep=' ', header=None)
Run Code Online (Sandbox Code Playgroud)
第 1 行:
6.999299526214599609e+00 -4.579982161521911621e-01 6.291269779205322266e+00 3.196178436279296875e+00 -5.663570880889892578e+00 -1.810324430465698242e+00 -6.706712245941162109e+00 -1.486396908760070801e+00 7.831575274467468262e-01 2.103844642639160156e+00 1.438934803009033203e+00 1.163767457008361816e+00 -4.729847431182861328e+00 2.073661834001541138e-01 -3.499572992324829102e+00 7.331941604614257812e+00 5.259800434112548828e+00 3.068963885307312012e-01 4.826724827289581299e-01 2.915471076965332031e+00 -1.563049554824829102e+00 4.521403312683105469e+00 2.377167463302612305e+00 1.402835369110107422e+00 -6.507210731506347656e+00 1.661594510078430176e+00 3.218852043151855469e+00 2.605128288269042969e+00 -6.348329782485961914e-01 -1.768920421600341797e+00 3.369244933128356934e-01 -9.721876144409179688e+00 -3.150746524333953857e-01 -6.363586187362670898e-01 7.596837520599365234e+00 -2.103782415390014648e+00 2.669518947601318359e+00 2.815987110137939453e+00 3.098936080932617188e+00 -2.445043325424194336e+00 4.101460456848144531e+00 1.029265499114990234e+01 -3.425651788711547852e+00 -7.059376239776611328e+00 2.968243837356567383e+00 1.735906600952148438e+00 -5.084319591522216797e+00 -4.689389228820800781e+00 -5.318581685423851013e-02 7.332663059234619141e+00 0.000000000000000000e+00
Run Code Online (Sandbox Code Playgroud)
第 2 行:
-3.312762498855590820e+00 -6.952639102935791016e+00 4.057536602020263672e+00 -7.067280411720275879e-01 1.559423655271530151e-01 -2.063135862350463867e+00 3.473832607269287109e+00 …Run Code Online (Sandbox Code Playgroud) 如何使用matplotlib模块在python中绘制元组列表?元组列表
[(155, 16.84749748246271), (158, 13.618280538390644), (38, 13.103707537648402), (53, 10.157244261797375), (156, 6.779897254994966), (119, 6.27045632052444), (159, 4.3453112093858275), (161, 4.028984416275573), (32, 4.026263736663865), (118, 3.437058351914913)]
Run Code Online (Sandbox Code Playgroud)
在元组中,第一个值代表反应数,第二个值代表灵敏度。
有时,我想使用read_clipboard阅读Serieses,我必须这样做:
pd.Series(pd.read_clipboard(header=None).values[:,0])
Run Code Online (Sandbox Code Playgroud)
那么如果有更简单的方法会更好吗?
对于数据框,我可以很容易地做到这一点,例如:
pd.read_clipboard()
Run Code Online (Sandbox Code Playgroud)
就是这样。
但是对于Series,它是更长的单线。
那么有没有更简单的方法呢?
那个我不知道?
有什么秘籍吗?
不要忘记,请参阅下面我的自我回答
假设我有一本字典,名为d:
d = {'a': {1: (1,2,3), 2: (4,5,6)},'b': {1: (3,2,1), 2: (6,5,4)}}
Run Code Online (Sandbox Code Playgroud)
正如你所看到的,它是一个嵌套字典,我如何检测它是否是?
这里有些例子:
d = {'a':{1:(1,2,3),2:(4,5,6)},'b':{1:(3,2,1),2:(6,5,4)}}
d = {'a':1,'b':2}
Run Code Online (Sandbox Code Playgroud)
我想要输出:
True
False
Run Code Online (Sandbox Code Playgroud)
PS 字典列表不算。
为了为 ML 任务正确准备数据,我需要能够将原始数据帧拆分为多个较小的数据帧。我想获得上面的所有行,包括“BOOL”列的值为 1 的行 - 每次出现 1 时。即 n 个数据帧,其中 n 是 1 的出现次数。
数据示例:
df = pd.DataFrame({"USER_ID": ['001', '001', '001', '001', '001'],
'VALUE' : [1, 2, 3, 4, 5], "BOOL": [0, 1, 0, 1, 0]})
Run Code Online (Sandbox Code Playgroud)
预期输出是 2 个数据帧,如图所示:
和:
我已经考虑过使用 if-else 语句来附加行的 for 循环 - 但对于我正在使用的数据集来说效率非常低。寻找一种更pythonic的方式来做到这一点。
我想找到一个模式,并用另一个替换它,假设我有:
"Name":"hello"
Run Code Online (Sandbox Code Playgroud)
并想这样做
Name= "hello"
Run Code Online (Sandbox Code Playgroud)
使用Python正则表达式的字符串可能是双引号里的任何东西,所以我需要找到模式“ ‘:’ ”,取而代之的是=” “
python ×10
pandas ×5
dataframe ×3
python-3.x ×2
clipboard ×1
dictionary ×1
formatting ×1
installation ×1
jupyter ×1
matplotlib ×1
nested ×1
numpy ×1
python-3.5 ×1
python-3.6 ×1
regex ×1
series ×1
tuples ×1