小编jul*_*era的帖子

spark数据框保留最新记录

我有一个类似于的数据框:

id  | date       | value
--- | ---------- | ------
1   | 2016-01-07 | 13.90
1   | 2016-01-16 | 14.50
2   | 2016-01-09 | 10.50
2   | 2016-01-28 | 5.50
3   | 2016-01-05 | 1.50
Run Code Online (Sandbox Code Playgroud)

我试图保持每个id的最新值,如下所示:

id  | date       | value
--- | ---------- | ------
1   | 2016-01-16 | 14.50
2   | 2016-01-28 | 5.50
3   | 2016-01-05 | 1.50
Run Code Online (Sandbox Code Playgroud)

我尝试按日期desc排序并删除重复项后:

new_df = df.orderBy(df.date.desc()).dropDuplicates(['id'])   
Run Code Online (Sandbox Code Playgroud)

我的问题是,dropDuplicates()将保留它找到的第一个重复值吗?有没有更好的方法来完成我想做的事情?顺便说一句,我正在使用python。

谢谢。

python apache-spark

3
推荐指数
3
解决办法
1557
查看次数

停止后,docker启动容器

我用这个Dockerfile构建了一个phalcon php图像

FROM ubuntu:14.04

MAINTAINER betojulio

COPY apache2_evogas.conf /tmp/apache2.conf

RUN apt-get update && apt-get install -y \
    apache2 \
    php5-dev \
    php5-mysql \
    libapache2-mod-php5 \
    gcc \
    libpcre3-dev \
    git \
    && rm -rf /var/lib/apt/lists/* \
    && git clone git://github.com/phalcon/cphalcon.git \
    && cd cphalcon/build \
    && ./install \
    && cd /etc/php5/apache2/conf.d \
    && echo 'extension=phalcon.so' > phalcon_php.ini \
    && cp /tmp/apache2.conf /etc/apache2/apache2.conf \
    && a2enmod rewrite

CMD /usr/sbin/apache2ctl -D FOREGROUND
Run Code Online (Sandbox Code Playgroud)

我创建了运行此命令行的容器

docker run -d -p 80:80 --name webserver -v /www:/var/www/html …
Run Code Online (Sandbox Code Playgroud)

docker

1
推荐指数
1
解决办法
2679
查看次数

标签 统计

apache-spark ×1

docker ×1

python ×1