模式匹配一个句子中的多个值

Question

我有一个具有特定格式的句子。

<subject> <action> <object> @ <price> ... // The sentence can continue

我想从句子中提取这些值。

限制条件：

主题总是Bob或Alice
操作是 bought 或 sold
对象可以是任何1-7个字母的单词 // 4apples should return NULL
价格是 float/integer
subject前可以有句子但保证没有包含 Bob/Alice.
@

示例：

Hi there, Bob sold apples @2.0 dollars each

期望的输出：

Subject: Bob
Action: sold
Object: apples
Price: 2.0

目前，我用天真的方法来做到这一点：

#!/usr/bin/env python3

sentence = "Hi there, alice sold apples @2.0 dollars each"

sentence = sentence.lower()

if 'alice' in sentence or 'bob' in sentence:

    s_list = sentence.split(" ")
    s_idx = -1

    if 'bob' in sentence:
        s_idx = s_list.index('bob')
    elif 'alice' in sentence:
        s_idx = s_list.index('alice')

    if s_idx > -1:
        Subject = s_list[s_idx]
        Action = s_list[s_idx+1]
        Object = s_list[s_idx+2]  #more if/else to validate Object contraints
        Price = s_list[s_idx+3]   #more if/else to extract 2.0 if we get @2.0 

    print("Subject: {}, Action: {}, Object: {}, Price: {}".format(Subject, Action, Object, Price))

我怎样才能做得更好？可能使用 re

Answer 1

您可以为每个元素使用带有命名捕获组的正则表达式：

import re

sentence = "Hi there, alice sold apples @2.0 dollars each"

values = re.search('(?P<subject>bob|alice)\s+(?P<action>bought|sold)\s+(?P<object>[A-Za-z]{1,7})\s+@\s*(?P<price>\d+(?:\.\d+)?)', sentence)
if values:
    Subject = values['subject']
    Action = values['action']
    Object = values['object']
    Price = values['price']
    print("Subject: {}, Action: {}, Object: {}, Price: {}".format(Subject, Action, Object, Price))

这将输出

Subject: alice, Action: sold, Object: apples, Price: 2.0

请注意，您可能需要提供 re.I flag to re.search 以允许匹配 bob 或 Bob（或 Sold 或 sold 等） ;在这种情况下，您可以将 object 捕获组中的 [A-Za-z] 替换为 [a-z].

模式匹配一个句子中的多个值

Pattern match multiple values in a sentence

python

regex

pattern-matching

python-3.x

模式匹配一​​个句子中的多个值

Pattern match multiple values in a sentence

python

regex

pattern-matching

python-3.x

模式匹配一个句子中的多个值