我正在使用24个vCPU进行谷歌云计算实例.运行的代码如下
import dask.dataframe as dd
from distributed import Client
client = Client()
#read data
logd = (dd.read_csv('vol/800000test', sep='\t', parse_dates=['Date'])
.set_index('idHttp')
.rename(columns={'User Agent Type':'UA'})
.categorize())
Run Code Online (Sandbox Code Playgroud)
当我运行它(这也是我在加载数据后进行的后验数据分析的情况)我看到使用了11个核心,有时4个.
有没有办法更好地控制它并充分利用核心?
| 归档时间: |
|
| 查看次数: |
758 次 |
| 最近记录: |