数据匿名化:进行方式
Data anonymisation : way to proceed
我经常在开发环境中使用生产数据进行测试。
但是,由于一些敏感数据,我需要做一个数据匿名化。
我已经确定了敏感数据,如姓名、地址等……以及姓名字段,例如,
我打算只做一个更新,将值设置为随机值。
然而,我想知道这是否是一种有效的数据匿名化方法。
有什么想法吗?
您可以按照您的建议手动执行此操作,方法是将个人信息替换为随机字符串。更好的是,如果您想维护一些有效性库,例如 faker
for python 可以提供帮助。如果您以任何规律性的方式执行此操作,尽管硬编码解决方案最终会因架构更改而失败。
还有一个 bunch of mathematical theory 关于匿名化数据集的最佳方法,并且有很多敏感数据被链接回个人的例子。这通常是因为数据集未正确匿名化或与公开可用数据相结合。但是,在测试中使用匿名数据肯定更安全。
还有一些其他工具可用,但其中大多数都非常昂贵。我们目前也在寻找解决方案。
如果您不想使用商业 ETL 工具,恕我直言,使用 nifi 并添加一些哈希函数可能是一个很好的解决方案。你会在这里找到 nifi:https://nifi.apache.org/
但这只对你有用,如果你能写你自己的插件,例如在 Java。在搜索时,这个 pdf 文档对我理解真正必要的内容非常有帮助:http://www.odbms.org/wp-content/uploads/2014/03/The-Complete-Book-of-Data-Anonymization_Chap_1.pdf
另一种可能性是编写您自己的小型 ETL 工具,例如。在 Python 或 SQL 中(仅当连接源和目标相等时才有效)。如果您不是开发人员,nifi 可能无法帮助您编写自己的工具。在这种情况下,你应该寻找一个商业解决方案,但在大多数情况下,对于开发和测试,我建议保持它的小而简单。不像 informatica 或 ab initi 那样大而昂贵。也许这个工具/链接会有所帮助:
https://anno.io/
https://www.owasp.org/index.php/Anonymization
https://open-ls.de/en/anonymization-knoxxer/
如果您要创建自己的解决方案,可能是 O.K。只是为了使用例如一个 shellscript 和 access SQL-Plus for Oracle。但这实际上取决于您要做什么。
我经常在开发环境中使用生产数据进行测试。 但是,由于一些敏感数据,我需要做一个数据匿名化。 我已经确定了敏感数据,如姓名、地址等……以及姓名字段,例如, 我打算只做一个更新,将值设置为随机值。 然而,我想知道这是否是一种有效的数据匿名化方法。 有什么想法吗?
您可以按照您的建议手动执行此操作,方法是将个人信息替换为随机字符串。更好的是,如果您想维护一些有效性库,例如 faker
for python 可以提供帮助。如果您以任何规律性的方式执行此操作,尽管硬编码解决方案最终会因架构更改而失败。
还有一个 bunch of mathematical theory 关于匿名化数据集的最佳方法,并且有很多敏感数据被链接回个人的例子。这通常是因为数据集未正确匿名化或与公开可用数据相结合。但是,在测试中使用匿名数据肯定更安全。
还有一些其他工具可用,但其中大多数都非常昂贵。我们目前也在寻找解决方案。
如果您不想使用商业 ETL 工具,恕我直言,使用 nifi 并添加一些哈希函数可能是一个很好的解决方案。你会在这里找到 nifi:https://nifi.apache.org/
但这只对你有用,如果你能写你自己的插件,例如在 Java。在搜索时,这个 pdf 文档对我理解真正必要的内容非常有帮助:http://www.odbms.org/wp-content/uploads/2014/03/The-Complete-Book-of-Data-Anonymization_Chap_1.pdf
另一种可能性是编写您自己的小型 ETL 工具,例如。在 Python 或 SQL 中(仅当连接源和目标相等时才有效)。如果您不是开发人员,nifi 可能无法帮助您编写自己的工具。在这种情况下,你应该寻找一个商业解决方案,但在大多数情况下,对于开发和测试,我建议保持它的小而简单。不像 informatica 或 ab initi 那样大而昂贵。也许这个工具/链接会有所帮助:
https://anno.io/
https://www.owasp.org/index.php/Anonymization https://open-ls.de/en/anonymization-knoxxer/
如果您要创建自己的解决方案,可能是 O.K。只是为了使用例如一个 shellscript 和 access SQL-Plus for Oracle。但这实际上取决于您要做什么。