数据科学和数据湖用例建议
Data Science and Data Lake Use Case Recommendations
我希望连接并从我的企业使用的各种服务中提取原始数据文件,以了解我们如何改善客户体验。
内部数据
- 基于交付更新和运输设备上的 GPS 单位的位置信息
- 有关唯一运输单位的服务和维修信息(每次 1000 个不同)
- 4 个主要 WANS 和约 40k 个用户名
外部数据
- 交通工具供应商
- 运输设备和用户名的财务和费用报告
大部分信息可以是avro,json,xml和csv信息
我已经开始设置从生成信息的 5 个独立服务导出此数据,并且发现 Fivetran 非常有帮助。你用什么来构建你的主要分析,我只想让我团队中的几个分析师访问?
正如 Suzy 评论的那样,这个问题非常广泛,比 Slack 上的大多数问题都更具哲学意义。这是 StackO 上 "asking a good question" 上的 link - https://whosebug.com/help/how-to-ask
也就是说,我 认为 在这个交界处最合适的答案是向您指出我们 "Data Piplelines" 文档的方向,可以在此处找到link:
https://docs.snowflake.net/manuals/user-guide/data-pipelines-intro.html
那里记录的工作流和数据加载框架非常强大,可以让您朝着正确的方向前进。
希望对你有帮助...丰富
我希望连接并从我的企业使用的各种服务中提取原始数据文件,以了解我们如何改善客户体验。
内部数据
- 基于交付更新和运输设备上的 GPS 单位的位置信息
- 有关唯一运输单位的服务和维修信息(每次 1000 个不同)
- 4 个主要 WANS 和约 40k 个用户名
外部数据
- 交通工具供应商
- 运输设备和用户名的财务和费用报告
大部分信息可以是avro,json,xml和csv信息
我已经开始设置从生成信息的 5 个独立服务导出此数据,并且发现 Fivetran 非常有帮助。你用什么来构建你的主要分析,我只想让我团队中的几个分析师访问?
正如 Suzy 评论的那样,这个问题非常广泛,比 Slack 上的大多数问题都更具哲学意义。这是 StackO 上 "asking a good question" 上的 link - https://whosebug.com/help/how-to-ask
也就是说,我 认为 在这个交界处最合适的答案是向您指出我们 "Data Piplelines" 文档的方向,可以在此处找到link: https://docs.snowflake.net/manuals/user-guide/data-pipelines-intro.html
那里记录的工作流和数据加载框架非常强大,可以让您朝着正确的方向前进。
希望对你有帮助...丰富