R:提取由数字后跟模式(或 space 和模式)组成的子串而不提取其他数字

R: Extracting a substring consisting of a number followed by a pattern (or a space and a pattern) without extracting other numbers

我正在从数据集中提取容器中药片(或胶囊)的数量。金额和形式在描述栏中的字符串中,其中包含许多其他信息。我想提取金额和指定其形式的单词(TABLET 或 TAB 或 CAPSULE 等)。到目前为止,我已经尝试了以下方法。

testdescript = c("CARBAMAZEPINE EXTENDED RELEASE TABLETS USP400 MG DRG LIC NO TLCT17HZ2019201757131 DT3042020 100 TABS", "100MGCARBAMAZEPINECARBATOL 100 TABLET CARBAM", "TEGRITAL CR400 x10TAB CARBAMAZEPINE10", "TEGRITAL200 CARBAMAZEPINE200 100 TAB","CARBAMAZEPINE300 MG X120 CAPSULES FOR RESEARCH PURPOSE ONLY NCV") 
pattern = c("([0-9/]+[[:space:]])+TABS", " [0-9/]+TABS", "([0-9/]+[[:space:]])+TABLET","[0-9/]+TABLET", "[0-9/]+[[:space:]]+TAB", "[0-9/]+TAB","([0-9/]+[[:space:]])+CAPSULES","[0-9/]+CAPSULES")
str_extract(testdescript,paste0(pattern, collapse = '|'))
##which gives
[1] "3042020 100 TABS" "200 TABLET"       "10TAB"            "100 TAB"          "120 CAPSULES"  

最后 4 个结果是预期结果,因此仅提取药片数和指定药片的字词。第一个结果给出了 2 个数字,其中第一个 (3042020) 是不需要的。期望的结果是 100 个 TABS。我还为该模式尝试了以下代码,它给出了类似的结果,但在第四个结果中有一个额外的错误(200 100 TAB)。

pattern2 =c("([0-9/]|([0-9/]+[[:space:]]))+TABS", "([0-9/]|([0-9/]+[[:space:]]))+TABLET","([0-9/]|([0-9/]+[[:space:]]))+TAB", "([0-9/]|([0-9/]+[[:space:]]))+CAPSULES")
str_extract(testdescript,paste0(pattern2, collapse = '|'))
[1] "3042020 100 TABS" "100 TABLET"       "10TAB"            "200 100 TAB"      "120 CAPSULES"   

我的问题是:如何在不读取不需要的其他数字的情况下获取可能包含空格的数字和表单文本?

提前致谢!

我认为您正在寻找的模式如下:

str_extract(string = testdescript, pattern = "[0-9]+ ?(TABS?|TABLETS?|CAPSULES?)")

为了解释上面的模式,它正在寻找可以后跟 space 或不跟的一系列数字,这就是为什么有一个 ?在 space 之后。之后我再次寻找标签、平板电脑和胶囊这几个词,测试它们是否有 S。

这对您的数据集来说太简单了吗?

str_extract(testdescript, "(?<=[[:space:]]|x|X)[0-9]+[[:space:]]?(TAB|TABS|TABLET|CAPSULES)")