我在服务器端开发了相当大的python应用程序,包括所有数据库连接,文件提取,解析,命令行调用.
它成为部署的噩梦,因为我在标准python lib之外使用了许多第三方模块.我忘记了他们.特别是不同的Linux操作系统使用它们的不同版本,因此使用OS的包管理器安装它们已不再适合.
我想在所有一个包中部署它们,包括我正在使用的当前python版本(大多数OS仍然附带Python 2.5,6我正在使用2.7和2.7特定功能.).
此外,我必须教会客户端如何部署,以便他们可以在其他服务器上测试.但他们不是Linux专家.我必须在一个脚本中或通过复制和粘贴来轻松实现.
有适用于Windows的Portablepython但是Linux没有任何东西.我从来没有使用python Packaging,因为我通常在我只托管的服务器上工作.
请告诉我python的可用包装和部署选项,包括所有已安装的python模块和python本身.
我正在考虑一个想法,一个需要在Core i7 cpu上运行全面性能的延迟应用程序.是否有任何Linux软件/实用程序可以组合该应用程序的所有内核,因此它可以比仅使用1个内核更高的性能进行处理?
应用程序是readpst,它只使用1 Core处理outlook PST文件.
如果我不能使用所有内核就可以了,如果可以使用3核,那就没关系了.
可能?还是我喝醉了?
如果我对多分叉的C知识很好,我会重写它以使用多个核心.
TFIDFVectorizer占用了大量内存,向量化470 MB的100k文档需要超过6 GB,如果我们去2100万个文档,它将不适合我们拥有的60 GB RAM.
所以我们去HashingVectorizer,但仍然需要知道如何分发散列矢量器.Fit和partial fit什么都不做,所以如何使用Huge Corpus?
我想在linux下提取NSF Lotus Notes文件.是否有任何开源工具,而无需安装Lotus Note服务器?
我对莲花笔记没有任何经验我的唯一任务是从NSF档案中提取所有内容.
我在网上找到的只是说安装Domino服务器并通过MAPI或COM使用它,这不是我的选择,我需要在linux下运行,我只会得到多个NSF文件没有服务器访问.
是否记录了文件结构?有哪些文件?我还无法找到任何NSF格式规范.
在没有Domino安装的情况下在Linux下运行的命令行工具的任何实现或任何不使用Domino的lib/api都可以使用.
谢谢
我想要做的是使用scikit.learn中的Kmeans将纯文本文档聚类为两个类别.
这是用例场景.我将收到一些样本集,这些样本集将被标记为"重要",并且将被标记为"不重要".
从scikit.learn示例数据集是来自新闻组的预定义格式:
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
Run Code Online (Sandbox Code Playgroud)
我想要做的是从文本文件接收数据(20newsgroups似乎根本不是文本文件,我甚至无法解压缩)
我不清楚的是fetch_20newsgroups的数据结构及其工作原理.我该怎么做才能将文本文件转换为所需的格式(fetch_20newsgroups提供的这种格式)
谢谢
叫Phyo.
我想过滤一个列表,这里是代码:
test=['aaa','bbb','ccc','ddd','footer','header']
def rm_hf(x): return x != 'footer'
filter(rm_hf,test)
Run Code Online (Sandbox Code Playgroud)
结果是 :
>>>['aaa','bbb','ccc','ddd','header']
Run Code Online (Sandbox Code Playgroud)
这是预期的结果,在列表中找到"页脚"并将其删除.
现在我想删除'header'和'footer',所以我这样做:
test2=['aaa','bbb','ccc','ddd','footer','header']
def rm_hf2(x): return x != 'footer' or x != 'header'
filter(rm_hf2,test2)
Run Code Online (Sandbox Code Playgroud)
结果是 :
>>>['aaa','bbb','ccc','ddd','footer','header']
Run Code Online (Sandbox Code Playgroud)
现在这很奇怪,它只是给出了"页脚","标题"而不是过滤它们?
我做错了什么?我认为我的逻辑是正确的......
python ×5
linux ×3
scikit-learn ×2
c ×1
deployment ×1
filtering ×1
java ×1
k-means ×1
list ×1
logic ×1
lotus-domino ×1
lotus-notes ×1
multicore ×1
numpy ×1
parsing ×1
performance ×1
portability ×1
scipy ×1
sequence ×1