小编the*_*ech的帖子

请参阅R中的最后一栏

我试图以通用方式对最后一列进行一些操作.

我在论坛上找到了这段很好的代码,它返回了最后一列的名称:

tail(names(train),1) #returns [1] "last"
Run Code Online (Sandbox Code Playgroud)

我仍然无法弄清楚如何直接引用我的数据集的最后一列:

data$last

r

23
推荐指数
5
解决办法
5万
查看次数

在Spark中加入DF后删除重复列

当您连接具有相似列名称的两个DF时:

df = df1.join(df2, df1['id'] == df2['id'])
Run Code Online (Sandbox Code Playgroud)

加入工作正常,但你不能调用id列,因为它是不明确的,你会得到以下异常:

pyspark.sql.utils.AnalysisException: "Reference 'id' is ambiguous, could be: id#5691, id#5918.;"
Run Code Online (Sandbox Code Playgroud)

这使得id不再可用......

以下函数解决了该问题:

def join(df1, df2, cond, how='left'):
    df = df1.join(df2, cond, how=how)
    repeated_columns = [c for c in df1.columns if c in df2.columns]
    for col in repeated_columns:
        df = df.drop(df2[col])
    return df
Run Code Online (Sandbox Code Playgroud)

我不喜欢它的是我必须迭代列名称并删除它们为什么由一个.这看起来很笨重......

您是否知道任何其他解决方案将更优雅地加入和删除重复项或删除多个列而不迭代它们?

python pyspark

21
推荐指数
4
解决办法
2万
查看次数

从Pycharm中的sys.stdin读取文件

我正在尝试测试一个简单的代码,该代码使用Pycharm逐行读取文件.

for line in sys.stdin:
    name, _ = line.strip().split("\t")
    print name
Run Code Online (Sandbox Code Playgroud)

我有我想要在同一目录中输入的文件:lib.txt

如何使用输入文件在Pycharm中调试我的代码?

python stdin pycharm

11
推荐指数
3
解决办法
7503
查看次数

R中k-NN回归的问题

我正试图从包中插入knnreg.出于某种原因,这个训练集有效:

> summary(train1)
       V1                V2             V3             
 13     : 10474   1      :  6435   7      :  8929     
 10     : 10315   2      :  6435   6      :  8895     
 4      : 10272   3      :  6435   9      :  8892     
 1      : 10244   4      :  6435   10     :  8892     
 2      : 10238   7      :  6435   15     :  8874     
 24     : 10228   8      :  6435   40     :  8870                        
 (Other):359799   (Other):382960   (Other):368218   
Run Code Online (Sandbox Code Playgroud)

虽然这个不起作用:

> summary(train2)
        V1              V2               V3                   V4      
 13     : 10474   1      :  6436   7      :  8929   Christmas …
Run Code Online (Sandbox Code Playgroud)

regression r knn r-caret

8
推荐指数
1
解决办法
1894
查看次数

Keras - 无法减少时代之间的损失

我正在使用一组图像训练类似VGG的信号网(如示例http://keras.io/examples/).我将图像转换为数组并使用scipy调整它们的大小:

mapper = [] # list of photo ids
data = np.empty((NB_FILES, 3, 100, 100)).astype('float32')
i = 0
for f in onlyfiles[:NB_FILES]:
    img = load_img(mypath + f)
    a = img_to_array(img)

    a_resize = np.empty((3, 100, 100))
    a_resize[0,:,:] = sp.misc.imresize(a[0,:,:], (100,100)) / 255.0 # - 0.5
    a_resize[1,:,:] = sp.misc.imresize(a[1,:,:], (100,100)) / 255.0 # - 0.5
    a_resize[2,:,:] = sp.misc.imresize(a[2,:,:], (100,100)) / 255.0 # - 0.5

    photo_id = int(f.split('.')[0])
    mapper.append(photo_id)
    data[i, :, :, :] = a_resize; i += 1
Run Code Online (Sandbox Code Playgroud)

在最后一个致密层中,我有2个神经元,我用softmax激活.以下是最后一行:

model.add(Dense(2))
model.add(Activation('softmax')) …
Run Code Online (Sandbox Code Playgroud)

python deep-learning keras

6
推荐指数
1
解决办法
2799
查看次数

无法为PYTHONPATH添加火花

我正在努力为我的python路径添加火花:

(myenv)me@me /home/me$ set SPARK_HOME="/home/me/spark-1.2.1-bin-hadoop2.4"
(myenv)me@me /home/me$ set PYTHONPATH=$PYTHONPATH:$SPARK_HOME:$SPARK_HOME/python:$SPARK_HOME/python/build:$SPARK_HOME/bin

(myenv)me@me /home/me$ python -c 'import sys; print(sys.path)'
['', '/home/me/.virtualenvs/default/lib/python2.7', '/home/me/.virtualenvs/default/lib/python2.7/plat-x86_64-linux-gnu', '/home/me/.virtualenvs/default/lib/python2.7/lib-tk', '/home/me/.virtualenvs/default/lib/python2.7/lib-old', '/home/me/.virtualenvs/default/lib/python2.7/lib-dynload', '/usr/lib/python2.7', '/usr/lib/python2.7/plat-x86_64-linux-gnu', '/usr/lib/python2.7/lib-tk', '/home/me/.virtualenvs/default/local/lib/python2.7/site-packages', '/home/me/.virtualenvs/default/lib/python2.7/site-packages']

(myenv)me@me /home/me$ python -c 'import pyspark'
Traceback (most recent call last):
  File "<string>", line 1, in <module>
ImportError: No module named pyspark
Run Code Online (Sandbox Code Playgroud)

python pythonpath apache-spark

5
推荐指数
2
解决办法
7754
查看次数

将IPython / Jupyter中的变量传递给html(%% html)块

我想将简单的变量传递给Jupyter上的html单元:

单元格1:

a=5
Run Code Online (Sandbox Code Playgroud)

单元格2:

%%html
<html>
  <head>
    <script type="text/javascript">
    window.alert(a);
    </script>
  </head>
</html>
Run Code Online (Sandbox Code Playgroud)

这将返回错误:

Javascript error adding output!
ReferenceError: a is not defined
See your browser Javascript console for more details.
Run Code Online (Sandbox Code Playgroud)

html python ipython jupyter jupyter-notebook

5
推荐指数
1
解决办法
1342
查看次数

使用python中的二进制向量评估预测

我想采用两个向量(预测,实际)并对Python中的预测进行简单评估:(两个向量都是ndarrays)

prediction = [ 1 1 1 0 0 1 ]
actual     = [ 1 0 1 0 1 0 ]

score = 1 + 0 + 1 + 1 + 0 + 0 / 6 = 3/6 = 50% 
Run Code Online (Sandbox Code Playgroud)

我尝试过&&操作员numpy.mul......总会有一些转变要做.我很欣赏一些非常简单的事情.

python numpy

1
推荐指数
1
解决办法
376
查看次数

使用R中的预定义列表进行排序

我正在尝试对此数据框进行排序:

 Age  grade name
 21.0   6   John 
 21.0   6   Paul
 22.8   4   Jake 
Run Code Online (Sandbox Code Playgroud)

借助一系列名称:

Paul, Jake, John
Run Code Online (Sandbox Code Playgroud)

最简单的方法是什么?

r

0
推荐指数
1
解决办法
185
查看次数