避免从 Cassandra 提取的数据重复

Avoid duplication in data pulled from Cassandra

背景：我正在从各种日志文件和 Cassandra table 获取信息。日志文件很好，但是从 table 中获取会在 elasticsearch 中提供重复项，因为我无法获取自 sql_last_run 以来添加的行。如何避免行重复？

避免这种情况的一种方法是通过计算原始日志行的 SHA 或 MD5 创建您自己的文档 ID。

这样，相同的日志行，即使重复读取，也将始终生成相同的 ID，您将不会再得到任何重复的文档。

另一个解决方案是在您的表中创建另一个具有唯一 GUID 的列，并将该值用作文档 ID。