使用 1000 条带有 REGEX 模式的案例语句进行高效字段映射
Efficient field mapping with 1000s of case statements with REGEX patterns
我有一个很大的 table(30B+ 行),其中基于 2 个字段中的值,我想通过正则表达式确定供应商的名称。有超过 1,000 家供应商,每个供应商至少有一个正则表达式来识别它。
目前,我使用了大量的 SQL 案例陈述,但它需要大量的时间和资源,如果有的话。 (RedShift 和 Snowflake 处理它,Google BigQuery 不处理。)
问题:是否有另一种方法可以解决这个问题,可能是在加载到数据库之前?
我有一个很大的 table(30B+ 行),其中基于 2 个字段中的值,我想通过正则表达式确定供应商的名称。有超过 1,000 家供应商,每个供应商至少有一个正则表达式来识别它。
目前,我使用了大量的 SQL 案例陈述,但它需要大量的时间和资源,如果有的话。 (RedShift 和 Snowflake 处理它,Google BigQuery 不处理。)
问题:是否有另一种方法可以解决这个问题,可能是在加载到数据库之前?