.Net API 查询 ADL Store 中的文件夹和文件
.Net API to query folder and files in ADL Store
我们正在按照配置的时间间隔从 EDS 获取提要。例如:如果推送配置为每 8 小时一次。对于 Employee table 那么 ADL 中的文件夹结构如下所示:
Employee
20171116
Employee_20171116_00:00
Employee_20171116_08:00
Employee_20171116_16:00
20171117
Employee_20171117_00:00
Employee_20171117_08:00
Employee_20171117_16:00
等等……
在初始全推后,这些文件会有delta记录(文件中会有指示器来区分全拉和delta模式)我使用水印方法来增量拉取这些delta文件;所以我将存储上次处理文件的日期和时间戳。在下一个 运行 期间,我需要选择在上一个 运行 之后存储的文件。因此我需要按升序查询所有文件名并寻找合适的客户端 api 可以这样做。
提前致谢!!
根据您的加工要求,可以使用
- U-SQL。在这种情况下,请查看文件集。
- .NET SDK for Azure Data Lake Store:https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-data-operations-net-sdk
我们正在按照配置的时间间隔从 EDS 获取提要。例如:如果推送配置为每 8 小时一次。对于 Employee table 那么 ADL 中的文件夹结构如下所示:
Employee
20171116
Employee_20171116_00:00
Employee_20171116_08:00
Employee_20171116_16:00
20171117
Employee_20171117_00:00
Employee_20171117_08:00
Employee_20171117_16:00
等等……
在初始全推后,这些文件会有delta记录(文件中会有指示器来区分全拉和delta模式)我使用水印方法来增量拉取这些delta文件;所以我将存储上次处理文件的日期和时间戳。在下一个 运行 期间,我需要选择在上一个 运行 之后存储的文件。因此我需要按升序查询所有文件名并寻找合适的客户端 api 可以这样做。
提前致谢!!
根据您的加工要求,可以使用
- U-SQL。在这种情况下,请查看文件集。
- .NET SDK for Azure Data Lake Store:https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-data-operations-net-sdk