小编Par*_*and的帖子

最快/最好的方式在S3到EC2之间复制数据?

我有相当多的数据(~30G,分成~100个文件)我想在S3和EC2之间传输:当我启动EC2实例时,我想将数据从S3复制到EC2本地磁盘尽可能快,当我完成处理时,我想将结果复制回S3.

我正在寻找一种能够来回快速/并行复制数据的工具.我有几个被破解的脚本,包括一个做得不错的工作,所以我不是在寻找基本库的指针; 我正在寻找快速可靠的东西.

amazon-s3 amazon-ec2

22
推荐指数
2
解决办法
2万
查看次数

指纹图像的有效方法(jpg,png等)?

是否有一种有效的方法来获取图像的指纹以进行重复检测?

也就是说,给定图像文件,例如jpg或png,我希望能够快速计算识别图像内容的值,并且对图像的其他方面(例如图像元数据)的变化具有相当的弹性.如果它涉及调整大小甚至更好.

[更新]关于jpg文件中的元数据,有谁知道它是否存储在文件的特定部分?我正在寻找一种忽略它的简单方法 - 例如.我可以跳过文件的前x个字节或从文件末尾取x个字节以确保我没有获得元数据吗?

png jpeg fingerprint

20
推荐指数
1
解决办法
6266
查看次数

在Webkit中打印时控制CSS分页符

我正在尝试改进使用Webkit打印的html文档的外观,在这种情况下,通过对发生分页的位置施加一些控制.

我可以在需要的地方插入分页符:

page-break-after: always; 
Run Code Online (Sandbox Code Playgroud)

但是,我找不到一种方法来避免在项目中间插入分页符.例如,我有html表,不应在多个页面的中间拆分.我的印象是

page-break-inside: avoid;
Run Code Online (Sandbox Code Playgroud)

会阻止分页插入元素内,但它似乎没有做任何事情.我的代码看起来像:

.dontsplit { border: 2px solid black; page-break-inside: avoid; }

<table class="dontsplit">
    <tr><td>Some title</td></tr>
    <tr><td><img src="something.jpg"></td></tr>
</table>
Run Code Online (Sandbox Code Playgroud)

尽管存在page-break-inside:avoid指令,我仍然将第一行和第二行之间的表拆分为单独的页面.

有任何想法吗?

html css webkit

17
推荐指数
2
解决办法
2万
查看次数

Python/Django:我应该使用哪个authorize.net库?

我需要authorize.net集成订阅付款,可能使用CIM.要求很简单 - 每月定期付款,只有几个不同的价位.客户信用卡信息将存储在authorize.net中.

有很多库和代码片段,我正在寻找关于哪种工作最佳的建议.

  • Satchmo似乎比我需要的更多,看起来很复杂.
  • Django-Bursar看起来像我需要的,但它被列为alpha.
  • 将AdRoll /授权库看起来也相当不错.
  • CIM XML API看起来不太糟糕,我可以直接与它们连接.

还有很多其他代码片段.

考虑到我相当简单的要求,现在最好的选择是什么?

python django authorize.net payment-gateway

17
推荐指数
4
解决办法
8651
查看次数

Django:通过FileField.name搜索(过滤)

我需要找到FileFields指向特定文件集的模型实例.这可能是显而易见的并且在某处记录但我似乎无法找到它:在django过滤器查询中使用FieldField.name的语法是什么?就像是:

models.MyModel.objects.filter(image__name='myfile.jpg')
Run Code Online (Sandbox Code Playgroud)

django

17
推荐指数
1
解决办法
5192
查看次数

Celery:每个任务的并发限制(每个任务的工作人员数量)?

是否可以在Celery的每个任务级别设置并发性(同时工作者数)?我正在寻找更细粒度的东西CELERYD_CONCURRENCY(设置整个守护进程的并发性).

使用场景是:我有一个celerlyd运行不同类型的任务具有非常不同的性能特征 - 一些是快速的,一些是非常慢的.对于一些人,我想尽可能快地尽可能多地做,对于其他人,我想确保在任何时候只有一个实例运行(即并发为1).

celery django-celery

17
推荐指数
1
解决办法
9106
查看次数

IMAP:搜索UID大于X的邮件(或者通常在我上次搜索之后)

我正在编写一个脚本来分析我的邮箱,并希望定期检查新邮件.搜索条件是:给我UID大于X的所有电子邮件的UID,其中X是我处理的最后一封电子邮件的UID.

或者,更一般地说,我正在寻找一种仅在我上次搜索后才能看到消息的方法.

请注意,我不是在寻找看到/看不见的消息; 该脚本以只读方式打开邮箱,我希望它不会干扰我的标志等.

我知道我可以在IMAP搜索中指定一个日期,但其粒度似乎是白天,所以不完全是我需要的.

我开始使用Gmail作为IMAP服务器,但希望将来支持通用IMAP服务器.

有没有办法搜索UID大于X的电子邮件?或者从消息X开始指定所有消息的另一种方法?

email gmail imap gmail-imap

16
推荐指数
1
解决办法
8037
查看次数

PyPy是否适用于NLTK?

PyPy是否适用于NLTK,如果是这样,那么对于贝叶斯分类器来说,是否有明显的性能提升?

虽然我们正在使用它,但是其他任何python环境(shedskin等)都提供比cpython更好的nlkt性能吗?

python pypy nltk

15
推荐指数
2
解决办法
2206
查看次数

根据cron规范计算下一个预定时间

在给定当前时间和cron规格的情况下,计算事件的下一个运行时间的有效方法是什么?

我正在寻找除"每一分钟检查它是否符合规格"之外的其他内容.

规范示例可能是:

  • 每个月,1日和15日15:01
  • 每小时10,20,30,40,50分钟

Python代码很可爱,但是psuedo代码或高级描述也会受到赞赏.

[更新]假设规范已经解析并且格式合理.

python algorithm cron scheduler

14
推荐指数
1
解决办法
6497
查看次数

具有默认值的Javascript数组(相当于Python的defaultdict)?

可能重复:
在读取之前设置未定义的javascript属性

在Javascript中是否有相当于Python的defaultdict?这将是一个Javascript数组,其中为缺少的键返回的值是可定义的.就像是:

var a = defaultArray("0");
console.log(a['dog']);
// would print 0
Run Code Online (Sandbox Code Playgroud)

如果没有,你会如何实现它?

javascript python

14
推荐指数
1
解决办法
5929
查看次数