如何用Hadoop实时处理Postgres数据库?
How to process Postgres database with Hadoop in realtime?
我有一个用于生产服务器的 Postgres 数据库,需要使用 Hadoop 对其进行定期分析。 Hadoop 中的每个查询都应基于 Postges 数据库中的最新版本。不同步是可以接受的,但应该只延迟几分钟。
如何在 Hadoop 中进行这种近乎实时的数据分析?
是的,可以通过配置Hive的Storage Handler API实现来实现。
Storage Handler 的概念只是在 Hive metastore 中单独拥有外部 table 元数据,实际的数据存储系统将是外部数据源。其中配置单元 table 元数据将包含外部数据库的详细信息 table 以及通常的列和格式详细信息。
每当你向配置了存储处理程序的Hivetable写入数据时,存储处理程序API会将写操作委托给配置的外部数据库,以便写入记录到外部 table.
以相同的方式从配置了存储处理程序的 Hive table 读取数据时,实际记录将由 API 从外部 table 获取。
似乎已经有一个 Hive 存储处理程序 api postgres 数据库的实现可用,请参考下面 url。
https://github.com/myui/HiveJdbcStorageHandler
希望对你有帮助..
我有一个用于生产服务器的 Postgres 数据库,需要使用 Hadoop 对其进行定期分析。 Hadoop 中的每个查询都应基于 Postges 数据库中的最新版本。不同步是可以接受的,但应该只延迟几分钟。
如何在 Hadoop 中进行这种近乎实时的数据分析?
是的,可以通过配置Hive的Storage Handler API实现来实现。
Storage Handler 的概念只是在 Hive metastore 中单独拥有外部 table 元数据,实际的数据存储系统将是外部数据源。其中配置单元 table 元数据将包含外部数据库的详细信息 table 以及通常的列和格式详细信息。
每当你向配置了存储处理程序的Hivetable写入数据时,存储处理程序API会将写操作委托给配置的外部数据库,以便写入记录到外部 table.
以相同的方式从配置了存储处理程序的 Hive table 读取数据时,实际记录将由 API 从外部 table 获取。
似乎已经有一个 Hive 存储处理程序 api postgres 数据库的实现可用,请参考下面 url。
https://github.com/myui/HiveJdbcStorageHandler
希望对你有帮助..