小编Boo*_*ean的帖子

浏览器用于在网页中搜索单词的算法

在浏览器中使用哪种数据结构或算法来搜索单词?浏览器会构建一个trie或后缀树吗?

谢谢
Bala

browser algorithm data-structures

5
推荐指数
1
解决办法
2214
查看次数

Apache2:mod_wsgi或mod_python,哪个更好?

我打算在python中编写web服务.但是,我发现wsgi也做了类似的事情.哪一个可以优先考虑?

谢谢
Bala

更新

我还是很困惑.请帮忙.

在我看来,更好的意思是:
1.Bug会定期修复.
2.大多数开发人员选择.
3.可以支持开箱即用的其他功能,如AWS等身份验证令牌.
4.没有对版本的强烈依赖.(我看到wsgi需要python 2.6)
5.所有python库都可以开箱即用.
6.未来可扩展.
7.未来的升级不会引起任何问题.

凭借我有限的经验,我想要这些功能.可能有一些我可能会失踪.

由于
巴拉

更新

对于造成的所有混乱,我感到很抱歉.我只想用python语言公开一个安静的Web服务.有一个好的框架吗?

python rest web-services apache2

5
推荐指数
2
解决办法
5698
查看次数

是否将多个文件添加到Hadoop分布式缓存?

我试图将多个文件添加到hadoop分布式缓存中。其实我不知道文件名。他们将被命名为part-0000*。有人可以告诉我该怎么做吗?

谢谢巴拉

java hadoop mapreduce

5
推荐指数
1
解决办法
3237
查看次数

从文本中检测单词边界

我在字边界识别方面遇到了这个问题。我删除了维基百科文档的所有标记,现在我想获取实体列表。(有意义的术语)。我计划采用文档的二元组、三元组并检查它是否存在于字典(wordnet)中。有没有更好的方法来实现这一目标。

以下是示例文本。我想识别实体(显示为用双引号括起来)

Vulcans are a humanoid species in the fictional "Star Trek" universe who evolved on the planet Vulcan and are noted for their attempt to live by reason and logic with no interference from emotion They were the first extraterrestrial species officially to make first contact with Humans and later became one of the founding members of the "United Federation of Planets"

java algorithm text word-boundary data-structures

5
推荐指数
1
解决办法
1740
查看次数

处理大型xml文件

我有一个包含许多子元素的大型xml文件.我希望能够运行一些xpath查询.我尝试在java中使用vtd-xml,但有时会出现outofmemory错误,因为xml非常大以适应内存.是否有另一种处理如此大的xml的方法.

java xml out-of-memory

5
推荐指数
1
解决办法
3335
查看次数

Python:最佳字典实现

我有几个python脚本,我在字典中存储5-10万字符串键值对,我查询这个字典大约5-10万次.我注意到python dict表现不佳.是否有任何其他实现最适合字符串键.

编辑:

我有两个大的人名列表,我想匹配它们,所以我把其中一个作为参考列表,并尝试对第二个列表中的每个名称应用不同的启发式,以确定是否存在于第一个列表中.因此,我必须在第二个列表中为每个名称查询2-3次.希望,这是有道理的.

python performance

5
推荐指数
1
解决办法
960
查看次数

mmap与fileinput的优点

我读到mmap比fileinput更有优势,因为它会将页面读入内核pagecache并在用户地址空间中共享页面.然而,fileinput实际上将页面带入内核并将一行复制到用户地址空间.因此,fileinput存在额外的空间开销.

所以,我打算转向mmap,但我想从高级python黑客那里知道它是否能提高性能?

如果是这样,是否有类似的fileinput实现使用mmap?

如果您知道,请指出任何开源代码.

谢谢

python performance

5
推荐指数
1
解决办法
2052
查看次数

替代scp,通过打开并行连接在linux机器之间传输文件

是否有替代scp,通过打开并行连接将大文件从一台机器传输到另一台机器,并且还能够暂停和恢复下载.

请不要将此转移到severfault.com.我不是系统管理员.我是一名开发人员,试图在备份主机和服务器之间传输过去的数据库转储.

谢谢

unix linux bash shell networking

4
推荐指数
1
解决办法
2万
查看次数

C问题:为什么char实际占用内存中的4个字节?

我写了一个小程序来检查我的内存中char占用了多少字节,它显示char实际占用内存中的4个字节.我理解这主要是因为字对齐,并没有看到char只有1个字节的优点.为什么不使用4个字节的char?

int main(void)
{
  int a;
  char b;
  int c;
  a = 0;
  b = 'b';
  c = 1;
  printf("%p\n",&a);
  printf("%p\n",&b);
  printf("%p\n",&c);
  return 0;
}
Run Code Online (Sandbox Code Playgroud)

输出:0x7fff91a15c58 0x7fff91a15c5f 0x7fff91a15c54

更新:我不相信malloc只会为char分配1个字节,即使sizeof(char)作为参数传递,因为malloc包含一个头将确保头是字对齐的.任何意见?

Update2:如果要求你有效地使用没有填充的内存,唯一的方法是创建一个特殊的内存分配器?或者是否可以禁用填充?

c size struct char data-structures

4
推荐指数
3
解决办法
9148
查看次数

释放linux页面缓存

我有一个shell脚本,它调用大约20个python脚本,每个脚本读取至少500MB大小的文件.在运行几个python脚本之后,8GB ram中就有40MB.我尝试了下面的命令,它工作,让我免费5.8 GB内存.

echo 1 > /proc/sys/vm/drop_caches
Run Code Online (Sandbox Code Playgroud)

是否有一种编程方式从python中做到这一点?或者我如何强制python释放它占用的内存?

python performance

4
推荐指数
2
解决办法
1832
查看次数