尝试 运行 具有大量列的极其基本的 AWS-glue 爬虫时得到 "Internal Service Exception"
Getting an "Internal Service Exception" when trying to run an extremely basic AWS-glue crawler with a large number of columns
我正在尝试通过让 S3 parquet 文件可通过 Athena 查询来进行一些 POC 测试。
我从一些非常基本的东西开始:一个 parquet 文件,大约有 400 行和大约 800 列(我知道这是一个不寻常的存储系统;但出于业务逻辑原因,没有太多其他的选项)
当我尝试 运行 胶水爬虫穿过它时,这似乎失败了,并出现一般性 Internal Service Exception
错误。
我尝试了同样的方法,但列数较少(其他所有内容都相同)并且很低,看吧,它奏效了。这是某种我不知道的限制吗?
如有任何帮助,我们将不胜感激。
好的,最终解决了。事实证明,胶水不喜欢我的列名称中的一些古怪字符(一些包含 \r)。我希望这个错误更明显,但对于未来的人来说,简化您的列名称并重试可能会有所帮助
这不是glue限制,是athena限制。由于数据目录在内部使用 Athena 进行查询,因此它应该遵循 Athena 标准。
Athena table, view, database, and column names allow only underscore special characters
Athena table, view, database, and column names
cannot contain special characters, other than underscore (_).
更多详情:https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html
我正在尝试通过让 S3 parquet 文件可通过 Athena 查询来进行一些 POC 测试。
我从一些非常基本的东西开始:一个 parquet 文件,大约有 400 行和大约 800 列(我知道这是一个不寻常的存储系统;但出于业务逻辑原因,没有太多其他的选项)
当我尝试 运行 胶水爬虫穿过它时,这似乎失败了,并出现一般性 Internal Service Exception
错误。
我尝试了同样的方法,但列数较少(其他所有内容都相同)并且很低,看吧,它奏效了。这是某种我不知道的限制吗?
如有任何帮助,我们将不胜感激。
好的,最终解决了。事实证明,胶水不喜欢我的列名称中的一些古怪字符(一些包含 \r)。我希望这个错误更明显,但对于未来的人来说,简化您的列名称并重试可能会有所帮助
这不是glue限制,是athena限制。由于数据目录在内部使用 Athena 进行查询,因此它应该遵循 Athena 标准。
Athena table, view, database, and column names allow only underscore special characters
Athena table, view, database, and column names cannot contain special characters, other than underscore (_).
更多详情:https://docs.aws.amazon.com/athena/latest/ug/tables-databases-columns-names.html