小编Suj*_*jit的帖子

从CSV中删除非ASCII字符

我想从文件中删除所有非ASCII字符.

我找到了一个带有tr的解决方案,但我想我需要在修改后写回该文件.

我需要以相对良好的性能来做到这一点.

有什么建议?

awk sed

54
推荐指数
8
解决办法
9万
查看次数

VirtualBOX上的EC2实例图片?

有没有办法获取保存的EC2实例映像并在我的个人计算机上的虚拟机上运行它?

vmware virtualbox virtual-machine amazon-ec2 amazon-web-services

38
推荐指数
2
解决办法
1万
查看次数

在postgres中导出为CSV并使用GZIP压缩

我需要将一个大表导出到csv文件并压缩它.

我可以使用来自postgres的COPY命令导出它 -

COPY foo_table to '/tmp/foo_table.csv' delimiters',' CSV HEADER;

然后可以使用gzip压缩它 -

gzip -c foo_table.csv > foo.gz

这种方法的问题是,在得到最终的压缩文件之前,我需要创建这个中间的csv文件,它本身就很庞大.

在csv中有导出表的方法并一步压缩文件吗?

此致,Sujit

compression postgresql backup gzip

24
推荐指数
3
解决办法
1万
查看次数

SELECT语句postgres中的动态列

我对postgresql很新.

实现这一目标的最佳方法是什么?

SELECT get_columns() 
  FROM table_name;
Run Code Online (Sandbox Code Playgroud)

get_columns()将提供查询的列名称.我看到人们建议使用EXECUTE语句,但我无法正常工作.

假设有一个表测试,列a,b,c,我想运行

SELECT a,b FROM Test;
SELECT a,c FROM Test;
Run Code Online (Sandbox Code Playgroud)

使用动态生成的列名称.

sql postgresql

8
推荐指数
2
解决办法
3万
查看次数

计算特定用户django的登录次数?

他们有什么方法可以计算django登录的数量吗?每次登录都会更新auth_user的last_login字段.我们可以使用该字段来计算特定用户的登录次数吗?

django django-models django-admin

7
推荐指数
2
解决办法
4007
查看次数

我们可以要求postgres使用特定表的缓存吗?

我们可以要求postgres对特定表使用缓存,并且根本不用于几个表吗?

database postgresql caching

6
推荐指数
1
解决办法
5005
查看次数

用于编辑csv文件或Python的sed脚本

在我们的项目中,我们需要将csv文件导入postgres.有多种类型的文件意味着文件的长度会发生变化,因为某些文件的列数较少,而某些文件的列数较少.

我们需要一种快速的方法将此文件导入postgres.我想使用postgres的COPY FROM,因为处理的速度要求非常高(每分钟几乎150个文件,每个文件大小为20K).

由于文件列号不固定,我需要在将文件传递给postgres过程之前预处理该文件.预处理只是在csv中为列添加额外的逗号,这些列在文件中不存在.

我有两个选项来预处理文件 - 使用python或使用Sed.

我的第一个问题是,预处理文件的最快方法是什么?

第二个问题是,如果我使用sed如何在说第4个,第5个逗号字段后插入逗号?
例如,如果文件有像1,23,56,we,89,2009-12-06这样的条目,我需要编辑最终输出的文件,如:1,23,56,we ,, 89 ,,,2009-12-06

python awk text-processing sed

5
推荐指数
1
解决办法
1956
查看次数

在django模板中嵌入生成的img

如何在django模板中嵌入生成的图像?

就像是

return render_to_response('graph.html', { 'img': get_graph() })
Run Code Online (Sandbox Code Playgroud)

我不想要这个 - 因为它只是发送图像

http.HttpResponse(get_graph(), mimetype="image/png")
Run Code Online (Sandbox Code Playgroud)

django django-templates

5
推荐指数
2
解决办法
2131
查看次数

如何处理boto中的请求超时(408)错误?

我们正在使用boto提供的domain.select()方法来查询SimpleDB.对于较小的查询(涉及几小时数据的查询),此方法可以正常工作.但是当我开始使用多个线程和更长的查询(24小时数据)时,它会开始超时,在stdout上发出以下错误:

-------------------------
         4 0 8
...
<?xml version="1.0"?>
<Response><Errors><Error><Code>QueryTimeout</Code><Message>A timeout occurred when attempting to query domain 'd110824' with query expression 'select * from `d110824` where `timestamp` &gt;= '2011-08-24T10:45:56' and `timestamp` &lt; '2011-08-25T10:45:56' and `identifier` = '00063F052C49' order by `timestamp` asc </Message><BoxUsage>0.0055590278</BoxUsage></Error></Errors><RequestID>....</RequestID></Response>
Run Code Online (Sandbox Code Playgroud)

当遇到此错误时,我想实现重试机制(指数退避).Boto不会为此错误抛出任何异常并只是打印它.要实现重试机制,我需要某种错误代码或异常才能知道错误已经发生.

关于如何在博托实现这一目标的任何想法?

python boto amazon-web-services amazon-simpledb

5
推荐指数
1
解决办法
2008
查看次数

在Python中将值转换为各自数据类型的最快方法

我有一个值列表 - 所有字符串.我想将这些值转换为各自的数据类型.我将值映射到可用的类型信息.

有三种不同的数据类型:int,str,datetime.代码需要能够处理数据的错误情况.

我正在做的事情: -

tlist =  [ 'some datetime value', '12', 'string', .... ]

#convert it to: [ datetime object, 12, 'string', ....]

error_data = ['', ' ', '?', ...]

d = { 0: lambda x: datetime.strptime(x,...) if x not in error_data else x, 
      1: lambda x: int(x) if x not in error_data else 0,
      2: lambda x: x 
      ...
     }

result = [ d[i](j) for i, j in enumerate(tlist) ]
Run Code Online (Sandbox Code Playgroud)

要转换的列表很长,就像180个值,我需要为数千个这样的列表执行此操作.上面代码的性能非常差.最快的方法是什么?

谢谢

python performance casting

5
推荐指数
1
解决办法
1219
查看次数

使用平移关联两个图形时绘制内存泄漏

我们用flot渲染两个图,它们共享相同的x轴.我们绘制它们:

plot1 = $.plot($("#placeholderGraph1"), p1_data, d1_options);
plot2 = $.plot($("#placeholderGraph2"), p2_data, d2_options);
Run Code Online (Sandbox Code Playgroud)

我们需要确保在一个图形上平移和缩放也会重绘另一个图形,反之亦然.我们通过以下绑定实现此目的:

$("#placeholderGraph1").bind("plotpan", adjustGraph1Axes);
$("#placeholderGraph2").bind("plotpan", adjustGraph2Axes);
Run Code Online (Sandbox Code Playgroud)

如果我们不添加最后两个语句,则没有内存泄漏,浏览器(所有浏览器)在重绘时会丢失内存.但是通过上面的绑定,浏览器永远不会丢失内存,它会累积到数百兆字节.

除此之外,我们还通过鼠标移动更新单个图例.

我们尝试了以下内存泄漏的方法,但都没有用:
1.制作plot1和plot2全局变量并显式删除内容
2.删除图形divs并重新创建
3.重新绑定前显式解除绑定事件
4.在重绘之前绘制空图形

关联两个图表或转储内存的任何其他方法?

javascript jquery memory-leaks flot

5
推荐指数
1
解决办法
527
查看次数

使用boto改进SimpleDB查询性能

我试图以下面的方式使用SimpleDB.

我希望随时将48小时值的数据保存到simpledb中并查询它以用于不同目的.每个域都有1小时的数据,所以在任何时候simpledb中都有48个域.随着新数据的不断上传,我删除了最旧的域,并为每个新的小时创建一个新域.

每个域的大小约为50MB,所有域的总大小约为2.2 GB.域中的项具有以下类型的属性
标识符 - 大约50个字符长 - 每个项目
时间戳1个- 时间戳值 - 每个项目1个
serial_n_data - 500-1000个字节数据 - 每个项目200个

我正在使用python boto库来上传和查询数据.我在域中发送大约200个属性的1项/秒.

对于这些数据的应用之一,我需要从所有48个域中获取所有数据.对于所有域,查询看起来像"SELECT*FROM domain".我使用8个线程来查询数据,每个线程负责几个域.
例如域1-6线程1
域7-12线程2等等

获取整个数据需要将近13分钟.我正在使用boto的select方法.我需要比这更快的性能.有关加快查询过程的建议吗?有没有其他语言我可以使用,这可以加快事情的进展?

python boto amazon-simpledb

2
推荐指数
1
解决办法
1709
查看次数