小编Zig*_*ien的帖子

Airflow - 如何使EmailOperator html_content动态化?

我正在寻找一种方法,允许动态设置给定EmailOperator任务发送的电子邮件内容.理想情况下,我想使电子邮件内容取决于xcom调用的结果,最好是通过html_content参数.

alert = EmailOperator(
    task_id=alertTaskID,
    to='please@dontreply.com',
    subject='Airflow processing report',
    html_content='raw content #2',
    dag=dag
)
Run Code Online (Sandbox Code Playgroud)

我注意到Airflow文档说xcom调用可以嵌入到模板中.也许有一种方法可以在指定的任务ID上使用模板来制定xcom pull,然后将结果作为html_content传递?谢谢

airflow

9
推荐指数
3
解决办法
9414
查看次数

在 pandas 数据框热图显示中使用中心发散颜色图

我想使用发散的颜色图来为 pandas 数据框的背景着色。使这一过程比人们想象的更棘手的一个方面是居中。在下面的示例中,使用了红到蓝颜色图,但颜色图的中间不用于零附近的值。如何创建居中背景颜色显示,其中零为白色,所有负片为红色色调,所有正片为蓝色色调?

import pandas as pd
import numpy as np
import seaborn as sns

np.random.seed(24)
df = pd.DataFrame()
df = pd.concat([df, pd.DataFrame(np.random.randn(10, 4)*10, columns=list('ABCD'))],
               axis=1)
df.iloc[0, 2] = 0.0
cm = sns.diverging_palette(5, 250, as_cmap=True)
df.style.background_gradient(cmap=cm).set_precision(2)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

上述显示中的零具有红色调,最接近白色背景的数字用于表示负数。

python dataframe pandas colormap pandas-styles

7
推荐指数
1
解决办法
4698
查看次数

互联网文章和社交媒体的分层分类+主题模型训练数据

我想按主题对大量(100K到1M +)的小型互联网文章(推文,博客文章,新闻等)进行分类.为了实现这一目标,我一直在寻找标记的培训数据文档,我可以用它来构建分类器模型.为了使这篇文章最有用,以下是我发现的一些可能的来源:

a)www.freebase.com/internet/website/category?instances=

b)wikipedia-miner.cms.waikato.ac.nz(用于访问维基百科数据的工具包)

c)en.wikipedia.org/wiki/Wikipedia:Database_download

d)wiki.dbpedia.org/About(属于类别的SKOS格式主题关键字)

e)互联网搜索大型文章集,然后进行聚类和手动策划

问题1:是否有其他可提供标签培训文件的互联网资源?给定主题上的关键字集,尤其是加权集也很有用

理想情况下,我想构建一个分类器,该分类器将返回分层类别,并且随着更多兴趣/数据变得可用,可以在以后添加子主题细节.

问题2:是否存在分层结构(也可能是可扩展的)主题建模/分类框架?一个代码示例将特别受欢迎

非常感谢

更新:

路透社语料库第1卷(在RCV1-v2上搜索)它是从1990年代后期开始的大约80万路透社文章被人类分类为主题,行业和地区类别

一个学术联盟(LDC)分发各种语料库,包括由纽约时报编制的约1.5M标签文件:http: //catalog.ldc.upenn.edu/LDC2008T19

hierarchical-clustering nltk training-data topic-modeling scikit-learn

6
推荐指数
1
解决办法
1422
查看次数

在 JPype 中使用自定义 java 类:包不可调用错误

我试图获得一个非常简单的示例,使用 JPype(版本:0.5.4.6)从 Python 中实例化自定义 java 类。它大致遵循一个示例: http://hustleplay.wordpress.com/2010/02/18/jpype-tutorial/并与以下内容相关: JPype Headaches

这是Python代码(在/Users/me/jpypeTest/testjpype.py中):

from jpype import *
cpopt="-Djava.class.path=%s" % ("/Users/me/jpypeTest")
startJVM(getDefaultJVMPath(),"-ea",cpopt)
print "JVM path:",getDefaultJVMPath()
print "classpath:",cpopt
java.lang.System.out.println("Hello World!!")
testPkg = JPackage('pkg')
Test = testPkg.Test
Test.speak("hi")
shutdownJVM()
Run Code Online (Sandbox Code Playgroud)

这是java代码(在/Users/me/jpypeTest/pkg/Test.java中):

package pkg;
public class Test {
    private String msg;

    public Test() {
        msg = "nothing so far...";
    }

    public static void speak(String msg) {
        System.out.println(msg);
    }
}
Run Code Online (Sandbox Code Playgroud)

编译使用:

javac Test.java
Run Code Online (Sandbox Code Playgroud)

生成 /Users/me/jpypeTest/pkg/Test.class 没有错误(我也尝试将 Test.class 放入工作目录中)

运行 python 代码给出:

> python testjpype.py 
JVM path: /System/Library/Frameworks/JavaVM.framework/JavaVM
classpath: …
Run Code Online (Sandbox Code Playgroud)

python java jpype

4
推荐指数
1
解决办法
6449
查看次数

如何有选择地过滤pandas组中的元素

我想根据组中的属性有选择地删除pandas组的元素.

下面是一个示例:删除除"A"列中值最高的行之外的所有元素

>>> dff = pd.DataFrame({'A': np.arange(8), 'B': list('aabbbbcc'), 'C': list('lmnopqrt')})

>>> dff
   A  B  C
0   0  a  l
1   2  a  m
2   4  b  n
3   1  b  o
4   9  b  p
5   2  b  q
6   3  c  r
7  10  c  t

>>> grped = dff.groupby('B')
>>> grped.groups
{'a': [0, 1], 'c': [6, 7], 'b': [2, 3, 4, 5]}
Run Code Online (Sandbox Code Playgroud)

将自定义函数/方法应用于组(在col'A'上的组内排序,过滤元素).

>>> yourGenius(grped,'A').reset_index()
Run Code Online (Sandbox Code Playgroud)

返回数据帧:

   A  B  C
0   2  a  m
1   9  b  p …
Run Code Online (Sandbox Code Playgroud)

pandas

2
推荐指数
1
解决办法
1631
查看次数