|
我实现ETL的基本思路:
定义源表,源字段,目标表,目标字段,源和目标的字段关系,转换的时候对维表进行查找,转换成ID,装载设计为独立的进程,调用数据库的装载工具,通过查目标表和字段定义表构成装载语句。
基本上是模仿powermat的抽取的模式,可以满足需要,每天抽取的数据量为30G
个人感觉磁盘速度在抽取的时候不是瓶颈,瓶颈是CPU,目前的通用的抽取工具都没有能够做到在单一的数据转换中使用多个cpu,一般是使用多个任务并发的方式实现多个CPU的利用的,而在数据转换的过程中大量需要CPU的运算来完成,实际运行中也证明了这一点。 |
|