1、要对源数据有充分了解,这需要业务系统工程师配合。不只要了解所用到源系统表、字段的意义,还要对数据的质量进行验证。

2、跟客户确认脏数据的处理方式(丢弃还是默认其它),这会直接影响到最后报表的误差率。

3、确认数据存放时长,只有了解数据存放时长,才可以更好的进行事实表的存储方式(比如分区方式等)

4、及时验证数据的准确性,当我们做了一定的历史数据抽取后要及时跟客户验证数据的准确性,否则等系统上线后发现数据不正确,此时悔之晚矣。

5、确定调度方式,调度不同会影响数据抽取完成时间,比如1周的数据安排在1天调度完成跟分成7次调度的响应时间是完全不同,这要根据应用确定。

6、流程监控与故障处理,这是必不可少的,我们监控ETL的允许情况,还有任何程序都不能保证永不出错,所以我们需要做确保故障出现后能够弥补。

此文章由 feng 于 2010-01-27 14:43:04 编辑

本日志由 feng 于 2010-01-27 14:41:36 发表,目前已经被浏览 72 次,评论 0 次;

作者添加了以下标签: etl工作原则

引用通告:http://www.imfeng.net/Article/23/Trackback.ashx

评论订阅:http://www.imfeng.net/Article/23/Feeds.ashx

评论列表

    暂时没有评论
(必填)
(必填,不会被公开)