将 12000 个文件导入一个 table

Import 12000 files into one table

我需要为我的项目设置流媒体环境。 接下来是数据集:http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf

我打算使用 PostgreSQL 和 Apache Kafka 作为源,然后使用 Apache Spark 或 Flink 连接到 Kafka,但问题是数据集大约有 10 000 个文本文件。

所以,问题是什么是最 efficient/elegant 将 ~10000 个文件(每个文件大约 500 行)导入一个 table。

现在我已经尝试使用 python 脚本 psycopg2executemany 方法(超慢)和 带有 JDBC 连接器的 Apache FLink 作业(速度不错,但不知道如何在一个作业中迭代超过 10000 个文件。

一个简单的解决方案是使用 spark 读取文件夹并为每个分区打开一个 odbc 连接,然后迭代并写入每一行。