SSIS 对数据排序

 一般来说,数据排序有两种方式:使用Sort组件,使用TSQL命令Order by。使用Sort组件排序,对SSIS来说,是一种阻塞性的操作,这意味着,SSIS组件必须等到所有的数据都加载到内存之后,才能按照特定的字段对数据执行排序操作。然而,如果使用TSQL命令的Order by子句,在关系引擎中执行排序操作,然后,把有序的数据加载到内存中,这样对SSIS说,是一种流式操作,这意味着,SSIS组件不需要等到所有的数据都加载到内存中,就可以开始处理数据,不仅节省系统的内存资源,而且数据处理的流程更快。

一,使用Sort组件进行排序

使用Sort组件对无序的数据进行排序,必须要设置排序键,排序列的位置,排序的类型(升序或降序):

SSIS 对数据排序

SortType:升序 ascending,降序 descending,

SortOrder:排序列的位置,从1开始依次递增,

Sort组件还有一个属性:Remove wors with duplicate sort values,该属性指定,当排序列重复时,Sort组件是否删除重复的行?这不同于distinct命令,distinct是输出的所有列不重复。如果选中该属性,只是保证排序列(输出列的一部分)不重复,该属性也可以从Sort Transformation Advanced Editor中查看和设置,默认值是False,不删除重复值:

SSIS 对数据排序

二,使用TSQL命令的Order by 子句对数据进行排序

在数据源中,数据访问模式选择为SQL command,通过编写TSQL代码,对数据排序。

step1:使用OLEDB数据源组件对数据排序,该数据源组件向下传递的数据是有序的:

 

SSIS 对数据排序

Step2,打开OLEDB的高级编辑器,查看输入和输出属性选项卡

1,点击OLEDB Source Ouput,设置IsSorted属性为True,该属性设置为true不会对数据排序,只是告知下游组件,该输出数据已经排序。

如果将IsSorted属性设置为True,实际数据并没有排序,在package 运行时会出错,所以必须提供已经排序的数据(在TSQL命令中使用order by子句对数据排序)

2,点击Output Columns,逐个设置排序列(Order by Column_List)的SortKeyPosition属性

SortKeyPosition属性有Sort Position和Direction 两个metadata:

正整数表示按照升序排序,0表示不是排序列,负整数表示按照降序排序,数字代表排序列的序号

例如,对于以下的TSQL语句:

select Col_1,Col_2,Col_3,Col_4 from dbo.TableName order Col_1 asc, Col_2 desc,Col_3 desc

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zyzdgz.html