对于 SQL 服务器集成,哪个 ETL 起点是最简单和最有效的?
WHich ETL starting point is the easiest and most efficient for SQL Server Integration?
我是 ETL 领域的新手,我正在尝试安排从另一家公司发送给我们的数据文件,以便可以将其 ETL 到数据仓库。我将在 SQL Server 2014 上通过 Integration Services 开发 ETL。基本上,我有五种类型的记录:账户记录(与个人账户相关的元记录)、购买记录等。
为方便起见,账户记录只提供账户持有人的信息(姓名、账户 ID、性别等),购买记录显示购买历史及其金额等
我的问题是:给我们发送记录的公司问我:你想如何安排记录?
- Multi-header/trailer:每个header表示我们获取的记录类型(header1将是Account)
- 多个文件(每种类型的记录将在一个单独的文件中)
- 在属于他的记录中提及关注的人。
例如:
Person X
Account Records....
Purchase Records...
...
Person Y
Account Records....
Purchase Records...
对于将 SSIS 作为您的 ETL 工具,总是在文件中使用相同的格式。
SSIS 可以处理 Header 条记录(因为我们可以跳过它们)。它不能处理尾部记录(因为我们的列不再一致。
1和3都违反了上面的规定。
由于 SSIS 允许您访问 .NET 框架,因此您可以 编写所有自定义解析,然后您可以处理任何文件格式,甚至是 1 或 3,但这很少见对贵公司而言,这是一项明智的投资,除非您与想要编写 ETL 的 .NET 开发人员同流合污。使用开箱即用的组件,直到它们不能满足手头的任务,然后使用脚本任务或组件进行补偿。如果这是您包裹的起点,通常充满危险。
我是 ETL 领域的新手,我正在尝试安排从另一家公司发送给我们的数据文件,以便可以将其 ETL 到数据仓库。我将在 SQL Server 2014 上通过 Integration Services 开发 ETL。基本上,我有五种类型的记录:账户记录(与个人账户相关的元记录)、购买记录等。
为方便起见,账户记录只提供账户持有人的信息(姓名、账户 ID、性别等),购买记录显示购买历史及其金额等
我的问题是:给我们发送记录的公司问我:你想如何安排记录?
- Multi-header/trailer:每个header表示我们获取的记录类型(header1将是Account)
- 多个文件(每种类型的记录将在一个单独的文件中)
- 在属于他的记录中提及关注的人。
例如:
Person X
Account Records....
Purchase Records...
...
Person Y
Account Records....
Purchase Records...
对于将 SSIS 作为您的 ETL 工具,总是在文件中使用相同的格式。
SSIS 可以处理 Header 条记录(因为我们可以跳过它们)。它不能处理尾部记录(因为我们的列不再一致。
1和3都违反了上面的规定。
由于 SSIS 允许您访问 .NET 框架,因此您可以 编写所有自定义解析,然后您可以处理任何文件格式,甚至是 1 或 3,但这很少见对贵公司而言,这是一项明智的投资,除非您与想要编写 ETL 的 .NET 开发人员同流合污。使用开箱即用的组件,直到它们不能满足手头的任务,然后使用脚本任务或组件进行补偿。如果这是您包裹的起点,通常充满危险。