小编Pra*_*ash的帖子

pandas:read_csv如何强制bool数据到dtype bool而不是object

我正在读一个大型的平面文件,它有多列时间戳数据.数据有一个布尔列,可以是True/False,也可以没有条目(评估为nan).

在读取csv时,bool列会将类型转换为对象,因为序列化错误会阻止在hdfstore中保存数据.

示例数据:

A    B    C    D
a    1    2    true
b    5    7    false
c    3    2    true
d    9    4
Run Code Online (Sandbox Code Playgroud)

我使用以下命令来阅读

import pandas as pd
pd.read_csv('data.csv', parse_dates=True)
Run Code Online (Sandbox Code Playgroud)

一种解决方案是在csv中读取时指定dtype,但我希望有一个更简洁的解决方案,比如convert_objects,我可以指定parse_numeric或parse_dates.

python pandas

7
推荐指数
2
解决办法
7946
查看次数

达阵数据框:合并时出现内存错误

我正在处理一些github用户数据,并试图创建同一城市中所有人的图表。为此,我需要在dask中使用合并操作。不幸的是,github用户群的大小是6M,似乎合并操作正在导致结果数据帧爆炸。我用下面的代码

import dask.dataframe as dd
gh = dd.read_hdf('data/github.hd5', '/github', chunksize=5000, columns=['id', 'city']).dropna()
st = dd.read_hdf('data/github.hd5', '/github', chunksize=5000, columns=['id', 'city']).dropna()
mrg = gh.merge(st, on='city').drop('city', axis=1)
mrg['max'] = mrg.max(axis=1)
mrg['min'] = mrg.min(axis=1)
mrg.to_castra('github')
Run Code Online (Sandbox Code Playgroud)

我可以使用此代码合并其他条件,例如名称/用户名,但尝试运行上述代码时出现MemoryError。

我尝试使用同步/多处理和线程调度程序来运行它。

我正在尝试在配备8GB RAM的Dell Laptop i7 4core上执行此操作。不应该以分块的方式熟悉此操作,还是我弄错了?使用pandas dataframe迭代器编写代码是唯一的出路吗?

python dask

5
推荐指数
1
解决办法
673
查看次数

连接到 google 计算引擎上的 postgres 服务器

我到处都在搜索这个,但搜索了一个半小时后我没有找到任何相关的东西。

如何连接到我的 Google 计算引擎上的数据库?即我想使用笔记本电脑上的 pgadmin3 连接到在我的 google 计算引擎上运行的 postgres 服务器。

这可能吗?如果是这样我该怎么办?

提前致谢!

postgresql google-compute-engine

4
推荐指数
1
解决办法
2995
查看次数

在圆弧d3js内对齐文本

我正在尝试绘制一个带有同心圆的图表,其中半径将定义各点之间的距离.我希望特定距离的所有点的标签都出现在相应的shell中.我正在使用d3绘制图形.除了我无法弄清楚如何确保文本很好地呈现并与具有恒定字符宽度和字符间距的基线对齐之外,我已经完成了所有工作.我花了一整天的时间试图弄明白,任何帮助都将不胜感激.

这是JSFiddle

这是javascript代码

var dataset = [{label:"Hello1", value:5},{label:"Hello2", value:10 {label:"Hello3",value:15},{label:"Hello4", value:20},{label:"Hello5", value:25}];

var arc = d3.svg.arc()
  .innerRadius(function(d,i){return i*35;})
  .outerRadius(function(d,i){return (i*35+30);})
  .startAngle(0)
  .endAngle(2 * Math.PI);

var svg = d3.select("body").append("svg")
  .attr("width", 960)
  .attr("height", 500)
  .selectAll("g")
  .data(dataset)
  .enter()
  .append("g")
  .attr("transform", "translate(480,250)");

var arcs = svg.append("path")
  .attr("fill","red")
  .attr("id", function(d,i){return "s"+i;})
  .attr("d",arc);

var thing = svg.append("g")
  .attr("id","thing")
  .style("fill","navy");

thing.append("text")
  .style("font-size",20)
  .attr("dy",function(d,i){return 20;})
  //.attr("alignment-baseline","middle")
  .append("textPath")
  .attr("textLength",function(d,i){return 90-i*5 ;})
  .attr("xlink:href",function(d,i){return "#s"+i;})
  .attr("startOffset",function(d,i){return 3/20;})
  .text(function(d){return d.label;})
Run Code Online (Sandbox Code Playgroud)

svg d3.js

2
推荐指数
1
解决办法
6392
查看次数

标签 统计

python ×2

d3.js ×1

dask ×1

google-compute-engine ×1

pandas ×1

postgresql ×1

svg ×1