我想从文件中删除所有非ASCII字符.
我找到了一个带有tr的解决方案,但我想我需要在修改后写回该文件.
我需要以相对良好的性能来做到这一点.
有什么建议?
有没有办法获取保存的EC2实例映像并在我的个人计算机上的虚拟机上运行它?
vmware virtualbox virtual-machine amazon-ec2 amazon-web-services
我需要将一个大表导出到csv文件并压缩它.
我可以使用来自postgres的COPY命令导出它 -
COPY foo_table to '/tmp/foo_table.csv' delimiters',' CSV HEADER;
然后可以使用gzip压缩它 -
gzip -c foo_table.csv > foo.gz
这种方法的问题是,在得到最终的压缩文件之前,我需要创建这个中间的csv文件,它本身就很庞大.
在csv中有导出表的方法并一步压缩文件吗?
此致,Sujit
我对postgresql很新.
实现这一目标的最佳方法是什么?
SELECT get_columns()
FROM table_name;
Run Code Online (Sandbox Code Playgroud)
get_columns()将提供查询的列名称.我看到人们建议使用EXECUTE语句,但我无法正常工作.
假设有一个表测试,列a,b,c,我想运行
SELECT a,b FROM Test;
SELECT a,c FROM Test;
Run Code Online (Sandbox Code Playgroud)
使用动态生成的列名称.
他们有什么方法可以计算django登录的数量吗?每次登录都会更新auth_user的last_login字段.我们可以使用该字段来计算特定用户的登录次数吗?
我们可以要求postgres对特定表使用缓存,并且根本不用于几个表吗?
在我们的项目中,我们需要将csv文件导入postgres.有多种类型的文件意味着文件的长度会发生变化,因为某些文件的列数较少,而某些文件的列数较少.
我们需要一种快速的方法将此文件导入postgres.我想使用postgres的COPY FROM,因为处理的速度要求非常高(每分钟几乎150个文件,每个文件大小为20K).
由于文件列号不固定,我需要在将文件传递给postgres过程之前预处理该文件.预处理只是在csv中为列添加额外的逗号,这些列在文件中不存在.
我有两个选项来预处理文件 - 使用python或使用Sed.
我的第一个问题是,预处理文件的最快方法是什么?
第二个问题是,如果我使用sed如何在说第4个,第5个逗号字段后插入逗号?
例如,如果文件有像1,23,56,we,89,2009-12-06这样的条目,我需要编辑最终输出的文件,如:1,23,56,we ,, 89 ,,,2009-12-06
如何在django模板中嵌入生成的图像?
就像是
return render_to_response('graph.html', { 'img': get_graph() })Run Code Online (Sandbox Code Playgroud)
我不想要这个 - 因为它只是发送图像
http.HttpResponse(get_graph(), mimetype="image/png")Run Code Online (Sandbox Code Playgroud) 我们正在使用boto提供的domain.select()方法来查询SimpleDB.对于较小的查询(涉及几小时数据的查询),此方法可以正常工作.但是当我开始使用多个线程和更长的查询(24小时数据)时,它会开始超时,在stdout上发出以下错误:
-------------------------
4 0 8
...
<?xml version="1.0"?>
<Response><Errors><Error><Code>QueryTimeout</Code><Message>A timeout occurred when attempting to query domain 'd110824' with query expression 'select * from `d110824` where `timestamp` >= '2011-08-24T10:45:56' and `timestamp` < '2011-08-25T10:45:56' and `identifier` = '00063F052C49' order by `timestamp` asc </Message><BoxUsage>0.0055590278</BoxUsage></Error></Errors><RequestID>....</RequestID></Response>
Run Code Online (Sandbox Code Playgroud)
当遇到此错误时,我想实现重试机制(指数退避).Boto不会为此错误抛出任何异常并只是打印它.要实现重试机制,我需要某种错误代码或异常才能知道错误已经发生.
关于如何在博托实现这一目标的任何想法?
我有一个值列表 - 所有字符串.我想将这些值转换为各自的数据类型.我将值映射到可用的类型信息.
有三种不同的数据类型:int,str,datetime.代码需要能够处理数据的错误情况.
我正在做的事情: -
tlist = [ 'some datetime value', '12', 'string', .... ]
#convert it to: [ datetime object, 12, 'string', ....]
error_data = ['', ' ', '?', ...]
d = { 0: lambda x: datetime.strptime(x,...) if x not in error_data else x,
1: lambda x: int(x) if x not in error_data else 0,
2: lambda x: x
...
}
result = [ d[i](j) for i, j in enumerate(tlist) ]
Run Code Online (Sandbox Code Playgroud)
要转换的列表很长,就像180个值,我需要为数千个这样的列表执行此操作.上面代码的性能非常差.最快的方法是什么?
谢谢
我们用flot渲染两个图,它们共享相同的x轴.我们绘制它们:
plot1 = $.plot($("#placeholderGraph1"), p1_data, d1_options);
plot2 = $.plot($("#placeholderGraph2"), p2_data, d2_options);
Run Code Online (Sandbox Code Playgroud)
我们需要确保在一个图形上平移和缩放也会重绘另一个图形,反之亦然.我们通过以下绑定实现此目的:
$("#placeholderGraph1").bind("plotpan", adjustGraph1Axes);
$("#placeholderGraph2").bind("plotpan", adjustGraph2Axes);
Run Code Online (Sandbox Code Playgroud)
如果我们不添加最后两个语句,则没有内存泄漏,浏览器(所有浏览器)在重绘时会丢失内存.但是通过上面的绑定,浏览器永远不会丢失内存,它会累积到数百兆字节.
除此之外,我们还通过鼠标移动更新单个图例.
我们尝试了以下内存泄漏的方法,但都没有用:
1.制作plot1和plot2全局变量并显式删除内容
2.删除图形divs并重新创建
3.重新绑定前显式解除绑定事件
4.在重绘之前绘制空图形
关联两个图表或转储内存的任何其他方法?
我试图以下面的方式使用SimpleDB.
我希望随时将48小时值的数据保存到simpledb中并查询它以用于不同目的.每个域都有1小时的数据,所以在任何时候simpledb中都有48个域.随着新数据的不断上传,我删除了最旧的域,并为每个新的小时创建一个新域.
每个域的大小约为50MB,所有域的总大小约为2.2 GB.域中的项具有以下类型的属性
标识符 - 大约50个字符长 - 每个项目
时间戳1个- 时间戳值 - 每个项目1个
serial_n_data - 500-1000个字节数据 - 每个项目200个
我正在使用python boto库来上传和查询数据.我在域中发送大约200个属性的1项/秒.
对于这些数据的应用之一,我需要从所有48个域中获取所有数据.对于所有域,查询看起来像"SELECT*FROM domain".我使用8个线程来查询数据,每个线程负责几个域.
例如域1-6线程1
域7-12线程2等等
获取整个数据需要将近13分钟.我正在使用boto的select方法.我需要比这更快的性能.有关加快查询过程的建议吗?有没有其他语言我可以使用,这可以加快事情的进展?
python ×4
postgresql ×3
awk ×2
boto ×2
django ×2
sed ×2
amazon-ec2 ×1
backup ×1
caching ×1
casting ×1
compression ×1
database ×1
django-admin ×1
flot ×1
gzip ×1
javascript ×1
jquery ×1
memory-leaks ×1
performance ×1
sql ×1
virtualbox ×1
vmware ×1