具有挑战性的缩写正则表达式
Challenging Regular Expression for Abbreviations
对于我正在进行的项目,我想在文本中首次引入缩写时识别它们。
例如:
He was working for the Danish National Bank (DNB).
(...)
The DNB was a great employer.
应匹配 DNB 作为丹麦国家银行的缩写。但并非所有缩写都是大写:
In 2012 the Law equal treatment of Circus Workers (after this: LetCW) was introduced.
哪个应该 return 提取 LetCW。最好的方法是什么?我目前正在考虑删除“在此之后”,然后在括号前使用与可疑缩写中的字母相同数量的单词。
编辑:
另一个有趣的例子是单个单词的缩写,即:
Abbreviation (Abbr)
或
Abbreviation (Abvn)
这是一个 NLP 问题,但它并不像正则表达式问题那样给我留下深刻印象——这似乎不是最合适的工具。
您似乎想要解析令牌流并识别可能是缩写的有前途的令牌。例如,它们可以用括号分隔或逗号分隔。令人讨厌的是,一旦停用词("the"、"i.e."、"after this")被删除,它们可能会立即出现在定义短语之前或之后。一种用于识别潜在缩写的启发式方法是区分大小写的匹配,显示英语词典中的非成员资格。
确定了一个潜在的缩写标记后,您需要扫描它的邻近区域,看看是否可以用附近的词来解释它,最好只使用它们的首字母。对于真正具有挑战性的数据集,您可以尝试解释 DARPA backronyms。
要从不同的方向着手,您可以尝试应用 word2vec。这里是 phrase2vec,挑战是可扩展地识别与潜在缩写标记的余弦距离非常非常小的多词短语。
对于我正在进行的项目,我想在文本中首次引入缩写时识别它们。
例如:
He was working for the Danish National Bank (DNB).
(...)
The DNB was a great employer.
应匹配 DNB 作为丹麦国家银行的缩写。但并非所有缩写都是大写:
In 2012 the Law equal treatment of Circus Workers (after this: LetCW) was introduced.
哪个应该 return 提取 LetCW。最好的方法是什么?我目前正在考虑删除“在此之后”,然后在括号前使用与可疑缩写中的字母相同数量的单词。
编辑: 另一个有趣的例子是单个单词的缩写,即:
Abbreviation (Abbr)
或
Abbreviation (Abvn)
这是一个 NLP 问题,但它并不像正则表达式问题那样给我留下深刻印象——这似乎不是最合适的工具。
您似乎想要解析令牌流并识别可能是缩写的有前途的令牌。例如,它们可以用括号分隔或逗号分隔。令人讨厌的是,一旦停用词("the"、"i.e."、"after this")被删除,它们可能会立即出现在定义短语之前或之后。一种用于识别潜在缩写的启发式方法是区分大小写的匹配,显示英语词典中的非成员资格。
确定了一个潜在的缩写标记后,您需要扫描它的邻近区域,看看是否可以用附近的词来解释它,最好只使用它们的首字母。对于真正具有挑战性的数据集,您可以尝试解释 DARPA backronyms。
要从不同的方向着手,您可以尝试应用 word2vec。这里是 phrase2vec,挑战是可扩展地识别与潜在缩写标记的余弦距离非常非常小的多词短语。