我正在寻找一种方法,允许动态设置给定EmailOperator任务发送的电子邮件内容.理想情况下,我想使电子邮件内容取决于xcom调用的结果,最好是通过html_content参数.
alert = EmailOperator(
task_id=alertTaskID,
to='please@dontreply.com',
subject='Airflow processing report',
html_content='raw content #2',
dag=dag
)
Run Code Online (Sandbox Code Playgroud)
我注意到Airflow文档说xcom调用可以嵌入到模板中.也许有一种方法可以在指定的任务ID上使用模板来制定xcom pull,然后将结果作为html_content传递?谢谢
我想使用发散的颜色图来为 pandas 数据框的背景着色。使这一过程比人们想象的更棘手的一个方面是居中。在下面的示例中,使用了红到蓝颜色图,但颜色图的中间不用于零附近的值。如何创建居中背景颜色显示,其中零为白色,所有负片为红色色调,所有正片为蓝色色调?
import pandas as pd
import numpy as np
import seaborn as sns
np.random.seed(24)
df = pd.DataFrame()
df = pd.concat([df, pd.DataFrame(np.random.randn(10, 4)*10, columns=list('ABCD'))],
axis=1)
df.iloc[0, 2] = 0.0
cm = sns.diverging_palette(5, 250, as_cmap=True)
df.style.background_gradient(cmap=cm).set_precision(2)
Run Code Online (Sandbox Code Playgroud)
上述显示中的零具有红色调,最接近白色背景的数字用于表示负数。
我想按主题对大量(100K到1M +)的小型互联网文章(推文,博客文章,新闻等)进行分类.为了实现这一目标,我一直在寻找标记的培训数据文档,我可以用它来构建分类器模型.为了使这篇文章最有用,以下是我发现的一些可能的来源:
a)www.freebase.com/internet/website/category?instances=
b)wikipedia-miner.cms.waikato.ac.nz(用于访问维基百科数据的工具包)
c)en.wikipedia.org/wiki/Wikipedia:Database_download
d)wiki.dbpedia.org/About(属于类别的SKOS格式主题关键字)
e)互联网搜索大型文章集,然后进行聚类和手动策划
问题1:是否有其他可提供标签培训文件的互联网资源?给定主题上的关键字集,尤其是加权集也很有用
理想情况下,我想构建一个分类器,该分类器将返回分层类别,并且随着更多兴趣/数据变得可用,可以在以后添加子主题细节.
问题2:是否存在分层结构(也可能是可扩展的)主题建模/分类框架?一个代码示例将特别受欢迎
非常感谢
路透社语料库第1卷(在RCV1-v2上搜索)它是从1990年代后期开始的大约80万路透社文章被人类分类为主题,行业和地区类别
一个学术联盟(LDC)分发各种语料库,包括由纽约时报编制的约1.5M标签文件:http: //catalog.ldc.upenn.edu/LDC2008T19
hierarchical-clustering nltk training-data topic-modeling scikit-learn
我试图获得一个非常简单的示例,使用 JPype(版本:0.5.4.6)从 Python 中实例化自定义 java 类。它大致遵循一个示例: http://hustleplay.wordpress.com/2010/02/18/jpype-tutorial/并与以下内容相关: JPype Headaches
这是Python代码(在/Users/me/jpypeTest/testjpype.py中):
from jpype import *
cpopt="-Djava.class.path=%s" % ("/Users/me/jpypeTest")
startJVM(getDefaultJVMPath(),"-ea",cpopt)
print "JVM path:",getDefaultJVMPath()
print "classpath:",cpopt
java.lang.System.out.println("Hello World!!")
testPkg = JPackage('pkg')
Test = testPkg.Test
Test.speak("hi")
shutdownJVM()
Run Code Online (Sandbox Code Playgroud)
这是java代码(在/Users/me/jpypeTest/pkg/Test.java中):
package pkg;
public class Test {
private String msg;
public Test() {
msg = "nothing so far...";
}
public static void speak(String msg) {
System.out.println(msg);
}
}
Run Code Online (Sandbox Code Playgroud)
编译使用:
javac Test.java
Run Code Online (Sandbox Code Playgroud)
生成 /Users/me/jpypeTest/pkg/Test.class 没有错误(我也尝试将 Test.class 放入工作目录中)
运行 python 代码给出:
> python testjpype.py
JVM path: /System/Library/Frameworks/JavaVM.framework/JavaVM
classpath: …
Run Code Online (Sandbox Code Playgroud) 我想根据组中的属性有选择地删除pandas组的元素.
下面是一个示例:删除除"A"列中值最高的行之外的所有元素
>>> dff = pd.DataFrame({'A': np.arange(8), 'B': list('aabbbbcc'), 'C': list('lmnopqrt')})
>>> dff
A B C
0 0 a l
1 2 a m
2 4 b n
3 1 b o
4 9 b p
5 2 b q
6 3 c r
7 10 c t
>>> grped = dff.groupby('B')
>>> grped.groups
{'a': [0, 1], 'c': [6, 7], 'b': [2, 3, 4, 5]}
Run Code Online (Sandbox Code Playgroud)
将自定义函数/方法应用于组(在col'A'上的组内排序,过滤元素).
>>> yourGenius(grped,'A').reset_index()
Run Code Online (Sandbox Code Playgroud)
返回数据帧:
A B C
0 2 a m
1 9 b p …
Run Code Online (Sandbox Code Playgroud)