Pandas 数据分析工作流程的 register/identify 模式是否有包?

Are there packages to register/identify schemas for a Pandas data analysis workflow?

我正在使用 Pandas 自动分析各种不同的第三方报告。大多数是 csv 格式。

假设只有正确的文件加载到程序中,我需要:

一开始我只需要管理10份报告。我想它可能会增长到识别数百个以上——注意到一个平面文件和一些词典无法处理。但为什么要重新发明轮子,...

register/identify 数据分析工作流程的 register/identify 模式是否有包?

我已经采用了第一个通过的解决方案,我将提供该解决方案作为答案。我已经使用 defaultdict 实现了基于 class 的解决方案。这是基本大纲:

  • Register class 在我的脚本中处理和访问 schemas 的 oop 结构:
    • Report(object)
    • ChildReport(Report)
  • 'vividict' 或多维字典结构来处理使用 Python 的 defaultdict 的报告集合:
    • client_reports['date']['type'] = ChildReport(self)
  • ReportsManager(object)class。初始化 vividict,并收集多种访问和管理集合的方法——每个客户端一个。
  • Python 的 Pickle 模块,用于存储 ReportManager 对象——每个客户端一个。

我对 defaultdictReportsManager class 的结构有一些疑问。这是一个开始。