Pandas 数据分析工作流程的 register/identify 模式是否有包？

Are there packages to register/identify schemas for a Pandas data analysis workflow?

我正在使用 Pandas 自动分析各种不同的第三方报告。大多数是 csv 格式。

假设只有正确的文件加载到程序中，我需要：

确定报告的来源（第 3 方），基于
- 架构
- 可预测的列值
存储同源历史报告，
return 起源，也许是其他东西-ys

一开始我只需要管理10份报告。我想它可能会增长到识别数百个以上——注意到一个平面文件和一些词典无法处理。但为什么要重新发明轮子，...

register/identify 数据分析工作流程的 register/identify 模式是否有包？

我已经采用了第一个通过的解决方案，我将提供该解决方案作为答案。我已经使用 defaultdict 实现了基于 class 的解决方案。这是基本大纲：

Register class 在我的脚本中处理和访问 schemas 的 oop 结构：
- Report(object)
- ChildReport(Report)
'vividict' 或多维字典结构来处理使用 Python 的 defaultdict 的报告集合：
- client_reports['date']['type'] = ChildReport(self)
ReportsManager(object)class。初始化 vividict，并收集多种访问和管理集合的方法——每个客户端一个。
Python 的 Pickle 模块，用于存储 ReportManager 对象——每个客户端一个。

我对 defaultdict 与 ReportsManager class 的结构有一些疑问。这是一个开始。