如何在正则表达式中设置定义一个匹配项高于另一个匹配项的优先级
How to set define precedence of one match above another in regular expression
我有日志文件,我需要使用以下格式从中提取每个记录行的键值对。
[2018-11-19T13:04:33.031+01:00] Bedrijfsdocument="BD-023005 Document" Richting="Uitgaand" Status="verzonden"; Zaaknummer="2323343333"; MessageID="ef5c6e9e-849e-4d80-af86-92fc127e7178"; ConversationID="5571c03e-62a8-4fce-81ff-9fe31b7b276c"; RefToMessageId="34333139343034303934303135343731"; MMDBestand="2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd"; Bericht="<?xml version="1.0" encoding="UTF-8" standalone="yes"?><ns2:DocumentBericht BDVersie="2.1" BDNaam="TA-022305" xmlns:ns2="com.my.test/berichten/document/2" xmlns="com.my.test/header/1"><Header><ID>58b5708f-4115-462c-93f3-5fb5134c9e25</ID><VerzendendePartijen><VerzendendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000034000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></VerzendendePartij></VerzendendePartijen><OntvangendePartijen><OntvangendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000076000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></OntvangendePartij></OntvangendePartijen><Datum>2018-11-19</Datum><Tijd>13:04:32.952+01:00</Tijd><SchemaVersieID>1.1</SchemaVersieID></Header><ns2:Zaak><ns2:Identificatie>2100008418</ns2:Identificatie></ns2:Zaak><ns2:DocumentAggregatieniveaus><ns2:DocumentAggregatieniveau><ns2:Classificatie><ns2:DocumentSoort>098</ns2:DocumentSoort></ns2:Classificatie><ns2:Identificatiekenmerk>DOC006256</ns2:Identificatiekenmerk><ns2:Foldernaam>02 - Correspondentie</ns2:Foldernaam><ns2:Revisie>1</ns2:Revisie><ns2:IndicatieGewijzigdeMetadata>0</ns2:IndicatieGewijzigdeMetadata><ns2:Naam>02 - Toezenden stukken rm</ns2:Naam><ns2:Bijlage><ns2:MimeContent><ns2:MimeContentType>application/pdf</ns2:MimeContentType><ns2:MimeContentId>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_2.pdf@my.com</ns2:MimeContentId></ns2:MimeContent></ns2:Bijlage></ns2:DocumentAggregatieniveau></ns2:DocumentAggregatieniveaus></ns2:DocumentBericht>"; Omvang="3512"
当前使用以下正则表达式对其进行解析以提取名称和值对。
(?:^\[.*\])?(?:[\s]+)(?<key>[^=]+)(?:={1}"{1})(?<value>[^"]+)(?:["]{1})
它工作正常,除了包含 xml 的键 'Bericht' 和非转义引号。这个键的内容对我来说是事实,所以应该在我的代码中处理它来解析日志行。所以我正在寻找一种方法来定义参数值的结尾,即“或>”,其中>”应优先于“.
我用下面的测试代码
public class test {
public static void main(String[] args) {
Pattern keyValuePairsPattern = Pattern.compile("(?:^\[.*\])?(?:[\s]+)(?<key>[^=]+)(?:={1}\"{1})(?<value>[^\"]+)(?:[\"]{1})");
String logentry = "[2018-11-19T13:04:33.031+01:00] Bedrijfsdocument=\"BD-023005 Document\" Richting=\"Uitgaand\" Status=\"verzonden\"; Zaaknummer=\"2323343333\"; MessageID=\"ef5c6e9e-849e-4d80-af86-92fc127e7178\"; ConversationID=\"5571c03e-62a8-4fce-81ff-9fe31b7b276c\"; RefToMessageId=\"34333139343034303934303135343731\"; MMDBestand=\"2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd\"; Bericht=\"<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\"?><ns2:DocumentBericht BDVersie=\"2.1\" BDNaam=\"TA-022305\" xmlns:ns2=\"com.my.test/berichten/document/2\" xmlns=\"com.my.test/header/1\"><Header><ID>58b5708f-4115-462c-93f3-5fb5134c9e25</ID><VerzendendePartijen><VerzendendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000034000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></VerzendendePartij></VerzendendePartijen><OntvangendePartijen><OntvangendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000076000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></OntvangendePartij></OntvangendePartijen><Datum>2018-11-19</Datum><Tijd>13:04:32.952+01:00</Tijd><SchemaVersieID>1.1</SchemaVersieID></Header><ns2:Zaak><ns2:Identificatie>2100008418</ns2:Identificatie></ns2:Zaak><ns2:DocumentAggregatieniveaus><ns2:DocumentAggregatieniveau><ns2:Classificatie><ns2:DocumentSoort>098</ns2:DocumentSoort></ns2:Classificatie><ns2:Identificatiekenmerk>DOC006256</ns2:Identificatiekenmerk><ns2:Foldernaam>02 - Correspondentie</ns2:Foldernaam><ns2:Revisie>1</ns2:Revisie><ns2:IndicatieGewijzigdeMetadata>0</ns2:IndicatieGewijzigdeMetadata><ns2:Naam>02 - Toezenden stukken rm</ns2:Naam><ns2:Bijlage><ns2:MimeContent><ns2:MimeContentType>application/pdf</ns2:MimeContentType><ns2:MimeContentId>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_2.pdf@my.com</ns2:MimeContentId></ns2:MimeContent></ns2:Bijlage></ns2:DocumentAggregatieniveau></ns2:DocumentAggregatieniveaus></ns2:DocumentBericht>\"; Omvang=\"3512\"";
// Extract Key value pairs
Matcher paramMatcher = keyValuePairsPattern.matcher(logentry);
while (paramMatcher.find()) {
System.out.println(paramMatcher.group("key") + "<=>" + paramMatcher.group("value"));
}
}
}
给出结果
Bedrijfsdocument<=>BD-023005 Document
Richting<=>Uitgaand
Status<=>verzonden
Zaaknummer<=>2323343333
MessageID<=>ef5c6e9e-849e-4d80-af86-92fc127e7178
ConversationID<=>5571c03e-62a8-4fce-81ff-9fe31b7b276c
RefToMessageId<=>34333139343034303934303135343731
MMDBestand<=>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd
Bericht<=><?xml version=
encoding<=>UTF-8
standalone<=>yes
BDVersie<=>2.1
BDNaam<=>TA-022305
xmlns:ns2<=>com.my.test/berichten/document/2
xmlns<=>com.my.test/header/1
- Correspondentie</ns2:Foldernaam><ns2:Revisie>1</ns2:Revisie><ns2:IndicatieGewijzigdeMetadata>0</ns2:IndicatieGewijzigdeMetadata><ns2:Naam>02 - Toezenden stukken rm</ns2:Naam><ns2:Bijlage><ns2:MimeContent><ns2:MimeContentType>application/pdf</ns2:MimeContentType><ns2:MimeContentId>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_2.pdf@my.com</ns2:MimeContentId></ns2:MimeContent></ns2:Bijlage></ns2:DocumentAggregatieniveau></ns2:DocumentAggregatieniveaus></ns2:DocumentBericht>"; Omvang<=>3512
期望的结果应该是
Bedrijfsdocument<=>BD-023005 Document
Richting<=>Uitgaand
Status<=>verzonden
Zaaknummer<=>2323343333
MessageID<=>ef5c6e9e-849e-4d80-af86-92fc127e7178
ConversationID<=>5571c03e-62a8-4fce-81ff-9fe31b7b276c
RefToMessageId<=>34333139343034303934303135343731
MMDBestand<=>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd
Bericht<=><?xml version="1.0" encoding="UTF-8" standalone="yes" .....
Omvang<=>3512
我尝试在参数值的结束引号前添加另一个带有可选“<”的非捕获组,但这并没有解决问题。
(?:^\[.*\])?(?:[\s]+)(?<key>[^=]+)(?:={1}"{1})(?<value>[^"]+)(?:>?)(?:["]{1})
我可能需要的是一个表达式,它通过 " 或 <" 定义值的结尾,其中 <" 优先于 "。
感谢任何帮助。
您可以使用
\s(?<key>[^=\s]+)="(?<value>(?:<[^<>]*>|[^"])*)"
在Java中:
String pat = "\s(?<key>[^=\s]+)=\"(?<value>(?:<[^<>]*>|[^\"])*)\"";
见regex demo。第一个 \s
甚至可以省略,但这样效率更高。
详情
\s
- 空格
(?<key>[^=\s]+)
- 组 "key":除空格和 =
之外的 1 个或多个字符
="
- 文字文本
(?<value>(?:<[^<>]*>|[^"])*)
- 组 "value":<
和 >
之间没有 <
/>
的任何子字符串(<[^<>]*>
) 内部或 (|
) 双引号以外的任何字符 ([^"]
)
"
- 双引号
我有日志文件,我需要使用以下格式从中提取每个记录行的键值对。
[2018-11-19T13:04:33.031+01:00] Bedrijfsdocument="BD-023005 Document" Richting="Uitgaand" Status="verzonden"; Zaaknummer="2323343333"; MessageID="ef5c6e9e-849e-4d80-af86-92fc127e7178"; ConversationID="5571c03e-62a8-4fce-81ff-9fe31b7b276c"; RefToMessageId="34333139343034303934303135343731"; MMDBestand="2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd"; Bericht="<?xml version="1.0" encoding="UTF-8" standalone="yes"?><ns2:DocumentBericht BDVersie="2.1" BDNaam="TA-022305" xmlns:ns2="com.my.test/berichten/document/2" xmlns="com.my.test/header/1"><Header><ID>58b5708f-4115-462c-93f3-5fb5134c9e25</ID><VerzendendePartijen><VerzendendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000034000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></VerzendendePartij></VerzendendePartijen><OntvangendePartijen><OntvangendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000076000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></OntvangendePartij></OntvangendePartijen><Datum>2018-11-19</Datum><Tijd>13:04:32.952+01:00</Tijd><SchemaVersieID>1.1</SchemaVersieID></Header><ns2:Zaak><ns2:Identificatie>2100008418</ns2:Identificatie></ns2:Zaak><ns2:DocumentAggregatieniveaus><ns2:DocumentAggregatieniveau><ns2:Classificatie><ns2:DocumentSoort>098</ns2:DocumentSoort></ns2:Classificatie><ns2:Identificatiekenmerk>DOC006256</ns2:Identificatiekenmerk><ns2:Foldernaam>02 - Correspondentie</ns2:Foldernaam><ns2:Revisie>1</ns2:Revisie><ns2:IndicatieGewijzigdeMetadata>0</ns2:IndicatieGewijzigdeMetadata><ns2:Naam>02 - Toezenden stukken rm</ns2:Naam><ns2:Bijlage><ns2:MimeContent><ns2:MimeContentType>application/pdf</ns2:MimeContentType><ns2:MimeContentId>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_2.pdf@my.com</ns2:MimeContentId></ns2:MimeContent></ns2:Bijlage></ns2:DocumentAggregatieniveau></ns2:DocumentAggregatieniveaus></ns2:DocumentBericht>"; Omvang="3512"
当前使用以下正则表达式对其进行解析以提取名称和值对。
(?:^\[.*\])?(?:[\s]+)(?<key>[^=]+)(?:={1}"{1})(?<value>[^"]+)(?:["]{1})
它工作正常,除了包含 xml 的键 'Bericht' 和非转义引号。这个键的内容对我来说是事实,所以应该在我的代码中处理它来解析日志行。所以我正在寻找一种方法来定义参数值的结尾,即“或>”,其中>”应优先于“.
我用下面的测试代码
public class test {
public static void main(String[] args) {
Pattern keyValuePairsPattern = Pattern.compile("(?:^\[.*\])?(?:[\s]+)(?<key>[^=]+)(?:={1}\"{1})(?<value>[^\"]+)(?:[\"]{1})");
String logentry = "[2018-11-19T13:04:33.031+01:00] Bedrijfsdocument=\"BD-023005 Document\" Richting=\"Uitgaand\" Status=\"verzonden\"; Zaaknummer=\"2323343333\"; MessageID=\"ef5c6e9e-849e-4d80-af86-92fc127e7178\"; ConversationID=\"5571c03e-62a8-4fce-81ff-9fe31b7b276c\"; RefToMessageId=\"34333139343034303934303135343731\"; MMDBestand=\"2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd\"; Bericht=\"<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\"?><ns2:DocumentBericht BDVersie=\"2.1\" BDNaam=\"TA-022305\" xmlns:ns2=\"com.my.test/berichten/document/2\" xmlns=\"com.my.test/header/1\"><Header><ID>58b5708f-4115-462c-93f3-5fb5134c9e25</ID><VerzendendePartijen><VerzendendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000034000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></VerzendendePartij></VerzendendePartijen><OntvangendePartijen><OntvangendePartij><Volgnummer>1</Volgnummer><RegistratieveRelatiePartij><Identificatie>00000004000000076000_OTA</Identificatie><SoortRegistratie>15</SoortRegistratie></RegistratieveRelatiePartij></OntvangendePartij></OntvangendePartijen><Datum>2018-11-19</Datum><Tijd>13:04:32.952+01:00</Tijd><SchemaVersieID>1.1</SchemaVersieID></Header><ns2:Zaak><ns2:Identificatie>2100008418</ns2:Identificatie></ns2:Zaak><ns2:DocumentAggregatieniveaus><ns2:DocumentAggregatieniveau><ns2:Classificatie><ns2:DocumentSoort>098</ns2:DocumentSoort></ns2:Classificatie><ns2:Identificatiekenmerk>DOC006256</ns2:Identificatiekenmerk><ns2:Foldernaam>02 - Correspondentie</ns2:Foldernaam><ns2:Revisie>1</ns2:Revisie><ns2:IndicatieGewijzigdeMetadata>0</ns2:IndicatieGewijzigdeMetadata><ns2:Naam>02 - Toezenden stukken rm</ns2:Naam><ns2:Bijlage><ns2:MimeContent><ns2:MimeContentType>application/pdf</ns2:MimeContentType><ns2:MimeContentId>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_2.pdf@my.com</ns2:MimeContentId></ns2:MimeContent></ns2:Bijlage></ns2:DocumentAggregatieniveau></ns2:DocumentAggregatieniveaus></ns2:DocumentBericht>\"; Omvang=\"3512\"";
// Extract Key value pairs
Matcher paramMatcher = keyValuePairsPattern.matcher(logentry);
while (paramMatcher.find()) {
System.out.println(paramMatcher.group("key") + "<=>" + paramMatcher.group("value"));
}
}
}
给出结果
Bedrijfsdocument<=>BD-023005 Document
Richting<=>Uitgaand
Status<=>verzonden
Zaaknummer<=>2323343333
MessageID<=>ef5c6e9e-849e-4d80-af86-92fc127e7178
ConversationID<=>5571c03e-62a8-4fce-81ff-9fe31b7b276c
RefToMessageId<=>34333139343034303934303135343731
MMDBestand<=>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd
Bericht<=><?xml version=
encoding<=>UTF-8
standalone<=>yes
BDVersie<=>2.1
BDNaam<=>TA-022305
xmlns:ns2<=>com.my.test/berichten/document/2
xmlns<=>com.my.test/header/1
- Correspondentie</ns2:Foldernaam><ns2:Revisie>1</ns2:Revisie><ns2:IndicatieGewijzigdeMetadata>0</ns2:IndicatieGewijzigdeMetadata><ns2:Naam>02 - Toezenden stukken rm</ns2:Naam><ns2:Bijlage><ns2:MimeContent><ns2:MimeContentType>application/pdf</ns2:MimeContentType><ns2:MimeContentId>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_2.pdf@my.com</ns2:MimeContentId></ns2:MimeContent></ns2:Bijlage></ns2:DocumentAggregatieniveau></ns2:DocumentAggregatieniveaus></ns2:DocumentBericht>"; Omvang<=>3512
期望的结果应该是
Bedrijfsdocument<=>BD-023005 Document
Richting<=>Uitgaand
Status<=>verzonden
Zaaknummer<=>2323343333
MessageID<=>ef5c6e9e-849e-4d80-af86-92fc127e7178
ConversationID<=>5571c03e-62a8-4fce-81ff-9fe31b7b276c
RefToMessageId<=>34333139343034303934303135343731
MMDBestand<=>2018-11-19_9bf1caf8-ca3d-43ae-b046-fa44142faa36_0_MMD.mmd
Bericht<=><?xml version="1.0" encoding="UTF-8" standalone="yes" .....
Omvang<=>3512
我尝试在参数值的结束引号前添加另一个带有可选“<”的非捕获组,但这并没有解决问题。
(?:^\[.*\])?(?:[\s]+)(?<key>[^=]+)(?:={1}"{1})(?<value>[^"]+)(?:>?)(?:["]{1})
我可能需要的是一个表达式,它通过 " 或 <" 定义值的结尾,其中 <" 优先于 "。
感谢任何帮助。
您可以使用
\s(?<key>[^=\s]+)="(?<value>(?:<[^<>]*>|[^"])*)"
在Java中:
String pat = "\s(?<key>[^=\s]+)=\"(?<value>(?:<[^<>]*>|[^\"])*)\"";
见regex demo。第一个 \s
甚至可以省略,但这样效率更高。
详情
\s
- 空格(?<key>[^=\s]+)
- 组 "key":除空格和=
之外的 1 个或多个字符
="
- 文字文本(?<value>(?:<[^<>]*>|[^"])*)
- 组 "value":<
和>
之间没有<
/>
的任何子字符串(<[^<>]*>
) 内部或 (|
) 双引号以外的任何字符 ([^"]
)"
- 双引号