Pandas 数据分析工作流程的 register/identify 模式是否有包?
Are there packages to register/identify schemas for a Pandas data analysis workflow?
我正在使用 Pandas 自动分析各种不同的第三方报告。大多数是 csv
格式。
假设只有正确的文件加载到程序中,我需要:
- 确定报告的来源(第 3 方),基于
- 架构
- 可预测的列值
- 存储同源历史报告,
- return 起源,也许是其他东西-ys
一开始我只需要管理10份报告。我想它可能会增长到识别数百个以上——注意到一个平面文件和一些词典无法处理。但为什么要重新发明轮子,...
register/identify 数据分析工作流程的 register/identify 模式是否有包?
我已经采用了第一个通过的解决方案,我将提供该解决方案作为答案。我已经使用 defaultdict
实现了基于 class 的解决方案。这是基本大纲:
- Register class 在我的脚本中处理和访问 schemas 的 oop 结构:
Report(object)
ChildReport(Report)
- 'vividict' 或多维字典结构来处理使用 Python 的
defaultdict
的报告集合:
client_reports['date']['type'] = ChildReport(self)
ReportsManager(object)
class。初始化 vividict
,并收集多种访问和管理集合的方法——每个客户端一个。
- Python 的 Pickle 模块,用于存储
ReportManager
对象——每个客户端一个。
我对 defaultdict
与 ReportsManager
class 的结构有一些疑问。这是一个开始。
我正在使用 Pandas 自动分析各种不同的第三方报告。大多数是 csv
格式。
假设只有正确的文件加载到程序中,我需要:
- 确定报告的来源(第 3 方),基于
- 架构
- 可预测的列值
- 存储同源历史报告,
- return 起源,也许是其他东西-ys
一开始我只需要管理10份报告。我想它可能会增长到识别数百个以上——注意到一个平面文件和一些词典无法处理。但为什么要重新发明轮子,...
register/identify 数据分析工作流程的 register/identify 模式是否有包?
我已经采用了第一个通过的解决方案,我将提供该解决方案作为答案。我已经使用 defaultdict
实现了基于 class 的解决方案。这是基本大纲:
- Register class 在我的脚本中处理和访问 schemas 的 oop 结构:
Report(object)
ChildReport(Report)
- 'vividict' 或多维字典结构来处理使用 Python 的
defaultdict
的报告集合:client_reports['date']['type'] = ChildReport(self)
ReportsManager(object)
class。初始化vividict
,并收集多种访问和管理集合的方法——每个客户端一个。- Python 的 Pickle 模块,用于存储
ReportManager
对象——每个客户端一个。
我对 defaultdict
与 ReportsManager
class 的结构有一些疑问。这是一个开始。