我试图以通用方式对最后一列进行一些操作.
我在论坛上找到了这段很好的代码,它返回了最后一列的名称:
tail(names(train),1) #returns [1] "last"
Run Code Online (Sandbox Code Playgroud)
我仍然无法弄清楚如何直接引用我的数据集的最后一列:
data$last
当您连接具有相似列名称的两个DF时:
df = df1.join(df2, df1['id'] == df2['id'])
Run Code Online (Sandbox Code Playgroud)
加入工作正常,但你不能调用id列,因为它是不明确的,你会得到以下异常:
pyspark.sql.utils.AnalysisException: "Reference 'id' is ambiguous, could be: id#5691, id#5918.;"
Run Code Online (Sandbox Code Playgroud)
这使得id不再可用......
以下函数解决了该问题:
def join(df1, df2, cond, how='left'):
df = df1.join(df2, cond, how=how)
repeated_columns = [c for c in df1.columns if c in df2.columns]
for col in repeated_columns:
df = df.drop(df2[col])
return df
Run Code Online (Sandbox Code Playgroud)
我不喜欢它的是我必须迭代列名称并删除它们为什么由一个.这看起来很笨重......
您是否知道任何其他解决方案将更优雅地加入和删除重复项或删除多个列而不迭代它们?
我正在尝试测试一个简单的代码,该代码使用Pycharm逐行读取文件.
for line in sys.stdin:
name, _ = line.strip().split("\t")
print name
Run Code Online (Sandbox Code Playgroud)
我有我想要在同一目录中输入的文件:lib.txt
如何使用输入文件在Pycharm中调试我的代码?
我正试图从包中插入knnreg.出于某种原因,这个训练集有效:
> summary(train1)
V1 V2 V3
13 : 10474 1 : 6435 7 : 8929
10 : 10315 2 : 6435 6 : 8895
4 : 10272 3 : 6435 9 : 8892
1 : 10244 4 : 6435 10 : 8892
2 : 10238 7 : 6435 15 : 8874
24 : 10228 8 : 6435 40 : 8870
(Other):359799 (Other):382960 (Other):368218
Run Code Online (Sandbox Code Playgroud)
虽然这个不起作用:
> summary(train2)
V1 V2 V3 V4
13 : 10474 1 : 6436 7 : 8929 Christmas …Run Code Online (Sandbox Code Playgroud) 我正在使用一组图像训练类似VGG的信号网(如示例http://keras.io/examples/).我将图像转换为数组并使用scipy调整它们的大小:
mapper = [] # list of photo ids
data = np.empty((NB_FILES, 3, 100, 100)).astype('float32')
i = 0
for f in onlyfiles[:NB_FILES]:
img = load_img(mypath + f)
a = img_to_array(img)
a_resize = np.empty((3, 100, 100))
a_resize[0,:,:] = sp.misc.imresize(a[0,:,:], (100,100)) / 255.0 # - 0.5
a_resize[1,:,:] = sp.misc.imresize(a[1,:,:], (100,100)) / 255.0 # - 0.5
a_resize[2,:,:] = sp.misc.imresize(a[2,:,:], (100,100)) / 255.0 # - 0.5
photo_id = int(f.split('.')[0])
mapper.append(photo_id)
data[i, :, :, :] = a_resize; i += 1
Run Code Online (Sandbox Code Playgroud)
在最后一个致密层中,我有2个神经元,我用softmax激活.以下是最后一行:
model.add(Dense(2))
model.add(Activation('softmax')) …Run Code Online (Sandbox Code Playgroud) 我正在努力为我的python路径添加火花:
(myenv)me@me /home/me$ set SPARK_HOME="/home/me/spark-1.2.1-bin-hadoop2.4"
(myenv)me@me /home/me$ set PYTHONPATH=$PYTHONPATH:$SPARK_HOME:$SPARK_HOME/python:$SPARK_HOME/python/build:$SPARK_HOME/bin
(myenv)me@me /home/me$ python -c 'import sys; print(sys.path)'
['', '/home/me/.virtualenvs/default/lib/python2.7', '/home/me/.virtualenvs/default/lib/python2.7/plat-x86_64-linux-gnu', '/home/me/.virtualenvs/default/lib/python2.7/lib-tk', '/home/me/.virtualenvs/default/lib/python2.7/lib-old', '/home/me/.virtualenvs/default/lib/python2.7/lib-dynload', '/usr/lib/python2.7', '/usr/lib/python2.7/plat-x86_64-linux-gnu', '/usr/lib/python2.7/lib-tk', '/home/me/.virtualenvs/default/local/lib/python2.7/site-packages', '/home/me/.virtualenvs/default/lib/python2.7/site-packages']
(myenv)me@me /home/me$ python -c 'import pyspark'
Traceback (most recent call last):
File "<string>", line 1, in <module>
ImportError: No module named pyspark
Run Code Online (Sandbox Code Playgroud) 我想将简单的变量传递给Jupyter上的html单元:
a=5
Run Code Online (Sandbox Code Playgroud)
%%html
<html>
<head>
<script type="text/javascript">
window.alert(a);
</script>
</head>
</html>
Run Code Online (Sandbox Code Playgroud)
这将返回错误:
Javascript error adding output!
ReferenceError: a is not defined
See your browser Javascript console for more details.
Run Code Online (Sandbox Code Playgroud) 我想采用两个向量(预测,实际)并对Python中的预测进行简单评估:(两个向量都是ndarrays)
prediction = [ 1 1 1 0 0 1 ]
actual = [ 1 0 1 0 1 0 ]
score = 1 + 0 + 1 + 1 + 0 + 0 / 6 = 3/6 = 50%
Run Code Online (Sandbox Code Playgroud)
我尝试过&&操作员numpy.mul......总会有一些转变要做.我很欣赏一些非常简单的事情.
我正在尝试对此数据框进行排序:
Age grade name
21.0 6 John
21.0 6 Paul
22.8 4 Jake
Run Code Online (Sandbox Code Playgroud)
借助一系列名称:
Paul, Jake, John
Run Code Online (Sandbox Code Playgroud)
最简单的方法是什么?
python ×6
r ×3
apache-spark ×1
html ×1
ipython ×1
jupyter ×1
keras ×1
knn ×1
numpy ×1
pycharm ×1
pyspark ×1
pythonpath ×1
r-caret ×1
regression ×1
stdin ×1