使用Python Pandas读取CSV时,可以指定索引列.读取文件时是否可以使用Python Dask,而不是之后设置索引?
例如,使用pandas:
df = pandas.read_csv(filename, index_col=0)
Run Code Online (Sandbox Code Playgroud)
理想情况下使用dask可能是这样的:
df = dask.dataframe.read_csv(filename, index_col=0)
Run Code Online (Sandbox Code Playgroud)
我试过了
df = dask.dataframe.read_csv(filename).set_index(?)
Run Code Online (Sandbox Code Playgroud)
但索引列没有名称(这似乎很慢).
我想将主要在Python中开发的代码管道进行容器化,但是它依赖于R中训练的模型。这两个代码库都需要一些要求和程序包。如何创建一个Docker映像,以允许我构建一个可以同时运行此Python和R代码的容器?
对于上下文,我有一个运行模型(随机森林)的R代码,但它必须是用Python构建的数据管道的一部分。Python管道首先执行一些功能,并为模型生成输入,然后使用该输入执行R代码,然后再将输出带到Python管道的下一阶段。
因此,我通过编写一个简单的测试Python函数来调用R代码(导入了子流程包的“ test_call_r.py”)来创建了此过程的模板,并需要将其放入具有必要要求和包的Docker容器中Python和R。
我已经能够为Python管道本身构建Docker容器,但是无法成功安装R和相关的软件包以及Python要求。我想重写Dockerfile来创建映像来执行此操作。
从Dockerhub文档中,我可以使用以下方式为Python管道创建映像:
FROM python:3
WORKDIR /app
COPY requirements.txt /app/
RUN pip install --no-cache-dir -r requirements.txt
COPY . /app
CMD [ "python", "./test_call_r.py" ]
Run Code Online (Sandbox Code Playgroud)
而且类似Dockerhub,我可以使用基本R映像(或Rocker)创建可以运行randomForest模型的Docker容器,例如,
FROM r-base
WORKDIR /app
COPY myscripts /app/
RUN Rscript -e "install.packages('randomForest')"
CMD ["Rscript", "myscript.R"]
Run Code Online (Sandbox Code Playgroud)
但是我需要创建一个可以同时安装Python和R的要求和程序包的映像,并执行代码库以从Python的子进程运行R。我怎样才能做到这一点?
给定 python 中的时间增量,例如:
td = datetime.timedelta(minutes=10)
Run Code Online (Sandbox Code Playgroud)
如果打印为字符串,它将显示没有我想要的前导零:
t_str = string(td)
print(t_str)
# result: "0:10:00"
Run Code Online (Sandbox Code Playgroud)
如何将其转换为保留“00:10:00”(%HH:%MM:%SS) 格式的字符串?