Java/Hive正则表达式解释

Question

Java/Hive正则表达式解释

直截了当的问题,谷歌正则表达式语法很难......

我正在阅读HortonWorks Hive教程(Hive使用与Java相同的正则表达式),以下SELECT语句使用正则表达式从可能的JSON数据中提取...

        INSERT OVERWRITE TABLE batting
        SELECT
        regexp_extract(col_value,'^(?:([^,]*)\.?){1}',1) player_id,
        regexp_extract(col_value,'^(?:([^,]*)\.?){2}',1) year,
        regexp_extract(col_value,'^(?:([^,]*)\.?){9}',1) run
        FROM temp_batting;

Run Code Online (Sandbox Code Playgroud)

数据如下所示:

PlayerID,yearID,stint,teamID,lgID,G,G_batting,AB,R,H,2B,3B,HR,RBI,SB,CS,BB,SO,IBB,HBP,SH,SF,GIDP,G_old aardsda01,2004 ,1,SFN,NL,11,11,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,11 aardsda01,2006,1, CHN,NL,45,43,2,0,0,0,0,0,0,0,0,0,0,0,1,0,0,45 aardsda01,2007,1,CHA,AL ,25,2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2

所以PlayerID在column1中,year是column2,R(运行)是第9列.Regexp_extract如何成功提取这些数据？

我是非捕获组的新手,但在我看来,整个事情都是非捕获组.此外,我习惯于以[0-9] {9}的形式看到{1},{2}或{9},这意味着它与9位数字匹配.在这种情况下,看起来它指向第9个匹配的东西,这个语法叫什么？