我正在嘗試通過 RUTA 腳本提取以下粗體數字(AN A348645 PL)。請查看我提供的示例:
下面是我的代碼:
Document{->RETAINTYPE(SPACE)};
((W|NUM) (NUM|W|SPACE|SPECIAL)*){REGEXP("([1]{0,1}[A-Z0-9]{2}[\\s ||-]{0,2}[A-Z0-9]{7}[\\s ||-]{0,2}[A-Z]{3})")->MARK(EntityType)};
1)
輸入:索賠經驗報告 - AN A348645 PLB Nest Holdings Pty Ltd
預期輸出:AN A348645 PLB
原始輸出:沒有實體匹配
但是,當模式後沒有單詞/字母時它正在工作:
2)
輸入:理賠經驗報告 - AN A348645 PLB
預期輸出:AN A348645 PLB
原始輸出:AN A348645 PLB
在這個例子中
AN A348645 PLB Nest Holdings Pty Ltd
Star Greedy Quantifier *
,在 PLB 之後尋找下一個註釋,並嘗試使用給定的正則表達式模式匹配它們。因此,規則僅在沒有下一個要嘗試匹配的標記時才會觸發。
嘗試按原樣在 Ruta 中應用正則表達式模式:
"([1]{0,1}[A-Z0-9]{2}[\\s ||-]{0,2}[A-Z0-9]{7}[\\s ||-]{0,2}[A-Z]{3})"->EntityType;
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句