使用分区查询 Amazon Athena

Querying Amazon Athena with partitions

假设我想按某些属性进行分区,并且在每个 分区我有几个文件在 JSON 中有记录(每个文件有更多记录)。

我想通过一些属性来查询它们,这些属性指定了为特定属性创建记录的时间(给我在某个日期之前创建的所有记录)。

我是否需要按日期对文件中的记录进行排序以获得更好的性能?

Athena 是否只从第一条记录扫描到最后一条记录,然后 给我结果?

Athena 分区完全基于 S3 文件夹结构。除此之外,所有查询都是 运行 从第一个元素到最后一个元素。

如果您需要某种分区,您只能通过 S3 目录定义它们,然后管理它们(手动或自动取决于文件夹格式)

这里有一些关于分区的更多信息:

Partitioning Data