小编sig*_*ker的帖子

leiningen - 如何为本地jar添加依赖项？

我想用leiningen来构建和开发我的clojure项目.有没有办法修改project.clj告诉它从本地目录中挑选一些罐子？

我有一些专有的罐子无法上传到公共回购.

另外,leiningen可以用来维护clojure项目的"lib"目录吗？如果我的一堆clojure项目共享相同的jar,我不想为每个jar维护一个单独的副本.

谢谢

java build clojure maven leiningen

sig*_*ker

lucky-day

112
推荐指数

6
解决办法

4万
查看次数

如何解析毫秒？

我如何使用strptime或任何其他函数来解析R中的毫秒时间戳？

time[1]
# [1] "2010-01-15 13:55:23.975"
strptime(time[1], format="%Y-%m-%d %H:%M:%S.%f")
# [1] NA
strptime(time[1], format="%Y-%m-%d %H:%M:%S")
# [1] "2010-01-15 13:55:23"`

Run Code Online (Sandbox Code Playgroud)

datetime r time-series strptime

sig*_*ker

2017 07-29

78
推荐指数

2
解决办法

4万
查看次数

如何在ggplot2中控制具有不同比例的刻面图的ylim？

在下面的示例中,如何为每个方面设置单独的ylim？

qplot(x, value,  data=df, geom=c("smooth")) + facet_grid(variable ~ ., scale="free_y")

Run Code Online (Sandbox Code Playgroud)

在每个方面中,y轴采用不同的值范围,并且我希望每个方面具有不同的ylim.

对于我想看到的趋势,默认值ylims太长.

visualization r ggplot2

sig*_*ker

2014 02-16

23
推荐指数

2
解决办法

1万
查看次数

将unix秒以毫秒为单位转换为POSIXct/POSIXlt

当我在R中将unix时间戳转换为datetime对象时,为什么会看到差异？

> as.POSIXlt(1268736919, origin="1970-01-01", tz="America/New_York")
[1] "2010-03-16 06:55:19 EDT"

> as.POSIXct(1268736919, origin="1970-01-01", tz="America/New_York")
[1] "2010-03-16 11:55:19 EDT"

Run Code Online (Sandbox Code Playgroud)

POSIXlt的结果实际上是正确的.

另外,有没有办法在不指定原点的情况下进行此转换？

谢谢

datetime r

sig*_*ker

lucky-day

18
推荐指数

1
解决办法

1万
查看次数

熊猫 - 按日期分组日内时间序列

我有一个日内系列的日志返回多天,我想下采样到每日ohlc.我可以做点什么

hi = series.resample('B', how=lambda x: np.max(np.cumsum()))
low = series.resample('B', how=lambda x: np.min(np.cumsum()))

Run Code Online (Sandbox Code Playgroud)

但是在每次调用时计算cumsum似乎效率低下.有没有办法首先计算cumsums然后对数据应用'ohcl'？

1999-08-09 12:30:00-04:00   -0.000486
1999-08-09 12:31:00-04:00   -0.000606
1999-08-09 12:32:00-04:00   -0.000120
1999-08-09 12:33:00-04:00   -0.000037
1999-08-09 12:34:00-04:00   -0.000337
1999-08-09 12:35:00-04:00    0.000100
1999-08-09 12:36:00-04:00    0.000219
1999-08-09 12:37:00-04:00    0.000285
1999-08-09 12:38:00-04:00   -0.000981
1999-08-09 12:39:00-04:00   -0.000487
1999-08-09 12:40:00-04:00    0.000476
1999-08-09 12:41:00-04:00    0.000362
1999-08-09 12:42:00-04:00   -0.000038
1999-08-09 12:43:00-04:00   -0.000310
1999-08-09 12:44:00-04:00   -0.000337
...
1999-09-28 06:45:00-04:00    0.000000
1999-09-28 06:46:00-04:00    0.000000
1999-09-28 06:47:00-04:00    0.000000
1999-09-28 06:48:00-04:00    0.000102
1999-09-28 06:49:00-04:00   -0.000068
1999-09-28 06:50:00-04:00    0.000136
1999-09-28 06:51:00-04:00 …

Run Code Online (Sandbox Code Playgroud)

python numpy time-series pandas

sig*_*ker

lucky-day

16
推荐指数

2
解决办法

2万
查看次数

KDB +喜欢加入pandas中的时间序列数据？

kdb +有一个aj函数,通常用于沿时间列连接表.

这是一个我有交易和报价表的例子,我得到每笔交易的现行报价.

q)5# t
time         sym  price size 
-----------------------------
09:30:00.439 NVDA 13.42 60511
09:30:00.439 NVDA 13.42 60511
09:30:02.332 NVDA 13.42 100  
09:30:02.332 NVDA 13.42 100  
09:30:02.333 NVDA 13.41 100  

q)5# q
time         sym  bid   ask   bsize asize
-----------------------------------------
09:30:00.026 NVDA 13.34 13.44 3     16   
09:30:00.043 NVDA 13.34 13.44 3     17   
09:30:00.121 NVDA 13.36 13.65 1     10   
09:30:00.386 NVDA 13.36 13.52 21    1    
09:30:00.440 NVDA 13.4  13.44 15    17

q)5# aj[`time; t; q]
time         sym  price size  bid …

Run Code Online (Sandbox Code Playgroud)

python join time-series kdb pandas

sig*_*ker

2017 11-26

14
推荐指数

3
解决办法

6579
查看次数

使用R/python和SSD进行数据分析

有没有人有使用r/python与存储在固态硬盘中的数据的经验.如果您主要进行读取操作,理论上这应该会显着改善大型数据集的加载时间.我想知道这是否属实,是否值得投资SSD以提高数据密集型应用程序的IO速率.

python r solid-state-drive data-analysis

sig*_*ker

2015 09-18

12
推荐指数

2
解决办法

3425
查看次数

如何将cairo设置为R中x11()的默认后端？

我在ubuntu 12.04上使用ggplot2.默认情况下,我的x11类型设置为Xlib.因此,当我在qplot中使用更平滑时,我得到一个错误,如:

"此设备不支持半透明:每页仅报告一次".

但是,如果我调用x11(type ="cairo"),一切正常.

如何将cairo作为x11的默认后端？

r cairo ggplot2

sig*_*ker

lucky-day

12
推荐指数

2
解决办法

4332
查看次数

在amazon ec2/S3上开发数字运算应用程序的工作流程

关于在EC2/S3上部署数据处理应用程序的文章很多,但我想知道,开发此类应用程序的典型工作流程是什么？

假设我有一个1 TB的时间序列数据,我已经设法将其存储在S3上.我如何编写应用程序并进行交互式数据分析以构建机器学习模型,然后编写大型程序来测试它们？换句话说,如何在这种情况下建立开发环境？我是否启动EC2实例,在其上开发软件并保存我的更改,并在每次我想做一些工作时关闭？

通常,我启动R或Pylab,从本地驱动器读取数据并进行分析.然后我根据该分析创建应用程序,并让它在该数据上松散.

在EC2上,我不确定我是否可以这样做.人们是否在本地保存数据以进行分析,并且只有在运行大型模拟作业时才使用EC2？

我很想知道其他人在做什么,特别是那些拥有基于EC2/S3的整个基础设施的初创公司.

cloud machine-learning amazon-s3 amazon-ec2 data-analysis

sig*_*ker

lucky-day

8
推荐指数

1
解决办法

825
查看次数

用于解析pandas中POSIX时间戳的惯用法？

我有一个csv文件,其时间列表示POSIX时间戳,以毫秒为单位.当我在pandas中读取它时,它正确地将其读作Int64,但我想将其转换为DatetimeIndex.现在我首先将其转换为datetime对象,然后将其转换为DatetimeIndex.

In [20]: df.time.head()

Out[20]: 
0    1283346000062
1    1283346000062
2    1283346000062
3    1283346000062
4    1283346000300
Name: time

In [21]: map(datetime.fromtimestamp, df.time.head()/1000.)
Out[21]: 
[datetime.datetime(2010, 9, 1, 9, 0, 0, 62000),
 datetime.datetime(2010, 9, 1, 9, 0, 0, 62000),
 datetime.datetime(2010, 9, 1, 9, 0, 0, 62000),
 datetime.datetime(2010, 9, 1, 9, 0, 0, 62000),
 datetime.datetime(2010, 9, 1, 9, 0, 0, 300000)]

In [22]: pandas.DatetimeIndex(map(datetime.fromtimestamp, df.time.head()/1000.))
Out[22]: 
<class 'pandas.tseries.index.DatetimeIndex'>
[2010-09-01 09:00:00.062000, ..., 2010-09-01 09:00:00.300000]
Length: 5, Freq: None, Timezone: None

Run Code Online (Sandbox Code Playgroud)

有这样一种惯用的方式吗？更重要的是,这是在熊猫中存储非唯一时间图的推荐方法吗？

python numpy pandas

sig*_*ker

lucky-day

7
推荐指数

2
解决办法

2983
查看次数