这显然很简单,但作为一个笨拙的新人我会陷入困境.
我有一个CSV文件,其中包含3个列,State,Office ID和该办公室的Sales.
我想计算某个州的每个办公室的销售百分比(每个州的所有百分比总和为100%).
df = pd.DataFrame({'state': ['CA', 'WA', 'CO', 'AZ'] * 3,
'office_id': range(1, 7) * 2,
'sales': [np.random.randint(100000, 999999)
for _ in range(12)]})
df.groupby(['state', 'office_id']).agg({'sales': 'sum'})
Run Code Online (Sandbox Code Playgroud)
返回:
sales
state office_id
AZ 2 839507
4 373917
6 347225
CA 1 798585
3 890850
5 454423
CO 1 819975
3 202969
5 614011
WA 2 163942
4 369858
6 959285
Run Code Online (Sandbox Code Playgroud)
我似乎无法弄清楚如何"高达"的state水平groupby与总起来sales对整个state计算分数.
如何获取具有指向对象的ForeignKey的所有模型对象的列表?(类似于DELETE CASCADE之前Django管理员中的删除确认页面).
我试图想出一种在数据库中合并重复对象的通用方法.基本上我希望所有具有ForeignKeys指向对象"B"的对象被更新为指向对象"A",这样我就可以删除"B"而不会丢失任何重要的东西.
谢谢你的帮助!
与Chef存储密码和API密钥的最佳做法是什么?将数据库密码,AWS api密钥和其他敏感凭证存储为Chef Server属性以用于配方是非常诱人的 - 但是安全考虑因素呢?这是最好的做法是什么?
我一直在尝试在Clojure中创建一个用户定义的异常,并且遇到了各种各样的问题.我尝试了这里概述的方法:
http://en.wikibooks.org/wiki/Clojure_Programming/Concepts#User-Defined_Exceptions
(gen-and-load-class 'user.MyException :extends Exception)
Run Code Online (Sandbox Code Playgroud)
但这似乎不适用于Clojure 1.2(或者我做错了......).我的环境是Clojure 1.2,Emacs和lein swank.
谢谢你的帮助!
我刚刚开始使用require.js.我已经成功地包装了jquery,一些插件和一些我自己的模块.我正在尝试与Firebug(或Google Chrome的JS控制台)中的模块(或jquery)进行交互,但我运气不错.
从控制台访问这些模块的正确方法是什么?
我在Postgres数据库中存储了大约300k文档,这些文档标记有主题类别(总共有大约150个类别).我有另外150k文件还没有类别.我正在努力寻找以编程方式对它们进行分类的最佳方法.
我一直在探索NLTK及其朴素贝叶斯分类器.似乎是一个很好的起点(如果你可以建议一个更好的分类算法来完成这项任务,我会全力以赴).
我的问题是我没有足够的RAM来同时训练所有150个categoies/300k文件上的NaiveBayesClassifier(5个类别的培训使用8GB).此外,随着我在更多类别上的训练,分类器的准确性似乎下降(2个类别的准确度为90%,5%为61%,10个为61%).
我是否应该一次训练5个类别的分类器,并通过分类器运行所有150k文件以查看是否有匹配?看起来这样可行,除了会有很多误报,其中没有真正匹配任何类别的文档因为它是可用的最佳匹配而被分类器打开了...是否存在如果文档不适合任何类别,为分类器提供"无上述"选项的方法是什么?
我正在尝试找出使用代理从消息队列(Amazon SQS)中使用项目的最佳方法.现在我有一个函数(process-queue-item),它从队列中获取项目并对其进行处理.
我想同时处理这些项目,但我无法理解如何控制代理.基本上我想尽可能地让所有代理忙,而不是从队列中抽取很多项目并开发积压(我会在几台机器上运行它,所以项目需要留在队列中直到它们真的需要).
谁能给我一些关于改进我的实现的指示?
(def active-agents (ref 0))
(defn process-queue-item [_]
(dosync (alter active-agents inc))
;retrieve item from Message Queue (Amazon SQS) and process
(dosync (alter active-agents dec)))
(defn -main []
(def agents (for [x (range 20)] (agent x)))
(loop [loop-count 0]
(if (< @active-agents 20)
(doseq [agent agents]
(if (agent-errors agent)
(clear-agent-errors agent))
;should skip this agent until later if it is still busy processing (not sure how)
(send-off agent process-queue-item)))
;(apply await-for (* 10 1000) agents)
(Thread/sleep 10000) …Run Code Online (Sandbox Code Playgroud) 我遵循了基本的CherryPy教程(http://www.cherrypy.org/wiki/CherryPyTutorial).没有讨论的一件事是部署.
如何启动CherryPy应用程序作为守护进程并"忘记它"?如果服务器重新启动会发生什么?
有标准食谱吗?也许会创建一个服务脚本(/etc/init.d/cherrypy ...)
谢谢!
我试图弄清楚如何通过HTTP代理路由我的请求.
我正在初始化这样的webdriver:
user_agent = 'my user agent 1.0'
DesiredCapabilities.PHANTOMJS['phantomjs.page.settings.userAgent'] = user_agent
driver = webdriver.PhantomJS()
Run Code Online (Sandbox Code Playgroud)
我已经浏览了文档和源代码,似乎无法通过webdriver找到使用phantomjs代理服务器的方法.
有什么建议?
我一直试图弄清楚如何将节点的名称(knife bootstrap -N)放入模板中.我已经尝试了十几个不同的想法,但还没有发现任何有用的东西.有谁知道如何从厨师食谱访问这个?
另外 - 有没有办法列出Chef配方可用的所有变量?
python ×5
chef-infra ×2
clojure ×2
deployment ×2
chef-recipe ×1
cherrypy ×1
concurrency ×1
django ×1
firebug ×1
ghostdriver ×1
javascript ×1
merge ×1
naivebayes ×1
nlp ×1
nltk ×1
pandas ×1
phantomjs ×1
proxy ×1
queue ×1
requirejs ×1
webdriver ×1