我有一个类似于的数据框:
id | date | value
--- | ---------- | ------
1 | 2016-01-07 | 13.90
1 | 2016-01-16 | 14.50
2 | 2016-01-09 | 10.50
2 | 2016-01-28 | 5.50
3 | 2016-01-05 | 1.50
Run Code Online (Sandbox Code Playgroud)
我试图保持每个id的最新值,如下所示:
id | date | value
--- | ---------- | ------
1 | 2016-01-16 | 14.50
2 | 2016-01-28 | 5.50
3 | 2016-01-05 | 1.50
Run Code Online (Sandbox Code Playgroud)
我尝试按日期desc排序并删除重复项后:
new_df = df.orderBy(df.date.desc()).dropDuplicates(['id'])
Run Code Online (Sandbox Code Playgroud)
我的问题是,dropDuplicates()将保留它找到的第一个重复值吗?有没有更好的方法来完成我想做的事情?顺便说一句,我正在使用python。
谢谢。
我用这个Dockerfile构建了一个phalcon php图像
FROM ubuntu:14.04
MAINTAINER betojulio
COPY apache2_evogas.conf /tmp/apache2.conf
RUN apt-get update && apt-get install -y \
apache2 \
php5-dev \
php5-mysql \
libapache2-mod-php5 \
gcc \
libpcre3-dev \
git \
&& rm -rf /var/lib/apt/lists/* \
&& git clone git://github.com/phalcon/cphalcon.git \
&& cd cphalcon/build \
&& ./install \
&& cd /etc/php5/apache2/conf.d \
&& echo 'extension=phalcon.so' > phalcon_php.ini \
&& cp /tmp/apache2.conf /etc/apache2/apache2.conf \
&& a2enmod rewrite
CMD /usr/sbin/apache2ctl -D FOREGROUND
Run Code Online (Sandbox Code Playgroud)
我创建了运行此命令行的容器
docker run -d -p 80:80 --name webserver -v /www:/var/www/html …Run Code Online (Sandbox Code Playgroud)