使用分区查询 Amazon Athena
Querying Amazon Athena with partitions
假设我想按某些属性进行分区,并且在每个
分区我有几个文件在 JSON 中有记录(每个文件有更多记录)。
我想通过一些属性来查询它们,这些属性指定了为特定属性创建记录的时间(给我在某个日期之前创建的所有记录)。
我是否需要按日期对文件中的记录进行排序以获得更好的性能?
Athena 是否只从第一条记录扫描到最后一条记录,然后
给我结果?
Athena 分区完全基于 S3 文件夹结构。除此之外,所有查询都是 运行 从第一个元素到最后一个元素。
如果您需要某种分区,您只能通过 S3 目录定义它们,然后管理它们(手动或自动取决于文件夹格式)
这里有一些关于分区的更多信息:
假设我想按某些属性进行分区,并且在每个 分区我有几个文件在 JSON 中有记录(每个文件有更多记录)。
我想通过一些属性来查询它们,这些属性指定了为特定属性创建记录的时间(给我在某个日期之前创建的所有记录)。
我是否需要按日期对文件中的记录进行排序以获得更好的性能?
Athena 是否只从第一条记录扫描到最后一条记录,然后 给我结果?
Athena 分区完全基于 S3 文件夹结构。除此之外,所有查询都是 运行 从第一个元素到最后一个元素。
如果您需要某种分区,您只能通过 S3 目录定义它们,然后管理它们(手动或自动取决于文件夹格式)
这里有一些关于分区的更多信息: