将 12000 个文件导入一个 table

Import 12000 files into one table

我需要为我的项目设置流媒体环境。接下来是数据集：http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我打算使用 PostgreSQL 和 Apache Kafka 作为源，然后使用 Apache Spark 或 Flink 连接到 Kafka，但问题是数据集大约有 10 000 个文本文件。

所以，问题是什么是最 efficient/elegant 将 ~10000 个文件（每个文件大约 500 行）导入一个 table。

现在我已经尝试使用 python 脚本 psycopg2 和 executemany 方法（超慢）和 带有 JDBC 连接器的 Apache FLink 作业（速度不错，但不知道如何在一个作业中迭代超过 10000 个文件。

一个简单的解决方案是使用 spark 读取文件夹并为每个分区打开一个 odbc 连接，然后迭代并写入每一行。