Nei*_*ner 6 regex hadoop apache-pig
使用apache猪和文本
hahahah. my brother just didnt do anything wrong. He cheated on a test? no way!
Run Code Online (Sandbox Code Playgroud)
我试图匹配"我哥哥没做错什么."
理想情况下,我想要匹配任何以"我的兄弟"开头并以标点符号(句末)或EOL结尾的内容.
查看猪文档,然后按照java.util.regex.Pattern的链接,我想我应该可以使用
extrctd = FOREACH fltr GENERATE FLATTEN(EXTRACT(txt,'(my brother just .*\\p{Punct})')) as (txt:chararray);
Run Code Online (Sandbox Code Playgroud)
但这似乎匹配到行结束.有关执行此匹配的任何建议吗?我已经准备好把头发拉出来了,把头发拉出来,我的意思是转换成python流