使用 Azure 数据工厂删除 Excel 文件中的特定行
Removing specific rows in an Excel file using Azure Data Factory
我在 ADLS 中有一组 excel 个文件。格式类似于以下格式:
前 4 行始终是文档 header 信息,后 3 行将是 2 个空行和文档结尾指示符。员工信息的行数是不确定的。我想使用 ADF 删除前 4 行和后 3 行。
任何人都可以帮助我派生列中的表达式/ Select?
我的 Excel 文件:
源数据集设置(在范围内给出 A5,select 第一行为 header):
SourceDataSetProperties
确保刷新源数据集中的架构。
Schema
架构刷新后,如果您预览源数据,您将看到从第 5 行开始的所有行。这也包括我们可以在数据流中过滤的页脚。
!startsWith(sno,'dummy') && sno!=''
这将过滤掉以虚拟开头的行,在您的情况下,是文档结尾。我们还通过检查 sno!=''
来忽略空行
过滤后的最终预览:
这个怎么样?在 'Source' 选项卡下,选择要跳过的行数。
我在 ADLS 中有一组 excel 个文件。格式类似于以下格式:
前 4 行始终是文档 header 信息,后 3 行将是 2 个空行和文档结尾指示符。员工信息的行数是不确定的。我想使用 ADF 删除前 4 行和后 3 行。
任何人都可以帮助我派生列中的表达式/ Select?
我的 Excel 文件:
源数据集设置(在范围内给出 A5,select 第一行为 header): SourceDataSetProperties
确保刷新源数据集中的架构。 Schema
架构刷新后,如果您预览源数据,您将看到从第 5 行开始的所有行。这也包括我们可以在数据流中过滤的页脚。
!startsWith(sno,'dummy') && sno!=''
这将过滤掉以虚拟开头的行,在您的情况下,是文档结尾。我们还通过检查 sno!=''
来忽略空行过滤后的最终预览:
这个怎么样?在 'Source' 选项卡下,选择要跳过的行数。