是否有之间的差异size_t和container::size_type?
我所理解的size_t是更通用的,可以用于任何size_types.
但是container::size_type针对特定种类的容器进行了优化?
在工作中似乎没有一周没有一些编码相关的conniption,灾难或灾难.这个问题通常来自程序员,他们认为他们可以在不指定编码的情况下可靠地处理"文本"文件.但你不能.
因此,已经决定从此以后禁止文件的名称以*.txt或结尾*.text.我们的想法是,这些扩展误导了偶然程序员对编码的沉闷,这会导致处理不当.没有任何扩展几乎会更好,因为至少你知道你不知道你有什么.
但是,我们并不是那么远.相反,您将需要使用以编码结尾的文件名.因此,对于文本文件,例如,这些会是这样README.ascii,README.latin1,README.utf8,等.
对于需要特定扩展的文件,如果可以在文件本身内部指定编码,例如在Perl或Python中,那么您应该这样做.对于像Java源这样的文件,文件内部不存在这样的工具,你将把编码放在扩展名之前,例如SomeClass-utf8.java.
对于输出,UTF-8是非常优选的.
但是对于输入,我们需要弄清楚如何处理我们的代码库中的数千个文件*.txt.我们想重命名所有这些以符合我们的新标准.但我们不可能全都注意它们.所以我们需要一个真正有效的库或程序.
它们有各种ASCII,ISO-8859-1,UTF-8,Microsoft CP1252或Apple MacRoman.虽然我们知道我们可以判断某些东西是否为ASCII,并且我们知道某些东西是否可能是UTF-8,但我们对8位编码感到困惑.因为我们在混合的Unix环境(Solaris,Linux,Darwin)中运行,大多数桌面都是Mac,所以我们有很多烦人的MacRoman文件.这些尤其是一个问题.
一段时间以来,我一直在寻找一种方法来以编程方式确定哪一个
文件在,我还没有找到一个程序或库,可以可靠地区分这三种不同的8位编码.我们可能单独拥有超过一千个MacRoman文件,因此我们使用的任何字符集检测器都必须能够嗅出它们.我看过的任何东西都无法解决问题.我对ICU字符集检测器库寄予厚望,但它无法处理MacRoman.我也看过模块在Perl和Python中做同样的事情,但一次又一次它总是相同的故事:不支持检测MacRoman.
我正在寻找的是一个现有的库或程序,它可靠地确定文件所在的五种编码中的哪一种 - 并且最好不止于此.特别是它必须区分我引用的三个3位编码,尤其是MacRoman.这些文件的英文文本超过99%; 其他语言中有一些,但并不多.
如果它是库代码,我们的语言首选项是它在Perl,C,Java或Python中,并按此顺序.如果它只是一个程序,那么我们并不关心它是什么语言,只要它是完整的源代码,在Unix上运行,并且完全不受阻碍.
有没有其他人有这个随机编码的遗留文本文件的问题?如果是这样,你是如何尝试解决它的,你有多成功?这是我的问题中最重要的方面,但我也对你是否认为鼓励程序员用这些文件所在的实际编码来命名(或重命名)他们的文件感兴趣,这将有助于我们避免将来出现这个问题.曾经尝试过任何人强制执行该体制的基础上,如果是的话,是说成功与否,为什么?
是的,我完全明白为什么鉴于问题的性质,人们无法保证给出明确的答案.对于小文件尤其如此,您没有足够的数据可供使用.幸运的是,我们的文件很少.除随机README文件外,大多数的大小范围为50k到250k,而且许多都更大.任何超过几K的东西都保证是英文的.
问题领域是生物医学文本挖掘,因此我们有时处理广泛且极大的语料库,就像所有PubMedCentral的Open Access资源库一样.一个相当庞大的文件是BioThesaurus 6.0,为5.7千兆字节.这个文件特别烦人,因为它几乎都是UTF-8.但是,我相信,有些numbskull会在其中插入几行8位编码 - 微软CP1252.在你旅行之前需要一段时间.:(
我一直在golang.org上寻找Windows编译器,但我似乎无法找到它.我只能看到Linux和OS X编译器.有谁知道Go编程是否可以在Windows上完成,还是谷歌还没有实现呢?
更新:似乎截至目前(2012年11月)golang.org有Windows 32/x86_64的官方二进制版本.
所以根据haproxy作者,谁知道关于http的一两件事:
发明了Keep-alive是为了在CPU速度慢100倍时降低服务器上的CPU使用率.但是没有说的是,持久连接消耗大量内存,而除了打开它们的客户端之外,任何人都无法使用.今天在2009年,CPU非常便宜,根据架构或价格,内存仍然限制在几千兆字节.如果一个站点需要保持活着,那么就存在一个真正的问题.高负载站点通常会禁用keep-alive以支持最大数量的并发客户端.没有保持活动的真正缺点是获取对象的延迟略有增加.浏览器将非keepalive站点上的并发连接数加倍,以弥补这一点.
这符合其他人的经验吗?即没有保持活力 - 结果现在几乎不值得注意?(它可能值得注意的是,使用websockets等 - 无论如何,无论保持活动状态如何,连接都保持"开放" - 对于响应速度非常快的应用程序).对于远离服务器的人来说效果是否更大 - 或者在加载页面时是否有许多工件要从同一主机加载?(我认为像CSS,图像和JS这样的东西越来越多地来自缓存友好的CDN).
思考?
(不确定这是否是serverfault.com的事情,但我不会发帖,直到有人告诉我把它移到那里).
如何重新启动Java AWT应用程序?我有一个按钮,我附加了一个事件处理程序.我应该使用什么代码来重启应用程序?
我想做与Application.Restart()C#应用程序相同的事情.
我想在Eclipse中编译我的Java程序但不运行它.我无法理解如何做到这一点.
如何.class在不运行的情况下将Java程序编译为Eclipse中的文件?
作为程序员,我应该何时考虑使用RB树,B树或AVL树?在决定选择之前需要考虑哪些关键点?
有人可以解释一下每个树形结构的场景,为什么选择其他树木结构参考关键点?
对于线程与线程相比,Actors的工作方式是否有任何好的和简短的解释?
一个线程不能被视为一个actor并将消息发送到其他线程吗?我看到了一些不同,但对我来说并不是那么清楚.我可以通过不同的线程使用任何语言的Actors吗?
我使用的是Mac OS X 10.8.2,并使用JDK 7.现在我下载了最新版本的IDEA IntelliJ,11.但是没有JDK 6它似乎没有开始.有没有解决方法?
如何在Mac OS X上使用JDK 7运行IDEA IntelliJ?