避免从 Cassandra 提取的数据重复

Avoid duplication in data pulled from Cassandra

背景:我正在从各种日志文件和 Cassandra table 获取信息。日志文件很好,但是从 table 中获取会在 elasticsearch 中提供重复项,因为我无法获取自 sql_last_run 以来添加的行。 如何避免行重复?

避免这种情况的一种方法是通过计算原始日志行的 SHA 或 MD5 创建您自己的文档 ID。

这样,相同的日志行,即使重复读取,也将始终生成相同的 ID,您将不会再得到任何重复的文档。

另一个解决方案是在您的表中创建另一个具有唯一 GUID 的列,并将该值用作文档 ID。