|
1、大数据集成的重要性?
这是一个信息爆炸的时代,各种各样的数据呈现指数级的增长。对于企业来说,如何实现企业内部各种信息化系统之间的数据共享,如何更好地利用已有的数据资源,如何减少互联网数据资料的收集、用户信息的采集等重复劳动和减少相应的活动所产生的费用,这些都成为企业信息化建设工作的重点内容。
企业要实施数据共享,就要解决各种各样的问题,比如数据格式需要转换、原始数据需要做数据清洗等,数据集成是有效解决这些问题的好方法。
2、说说你理解的大数据集成?
大数据集成指的是海量的、各种不同类型的、结构化和非结构化的数据,通过并行处理后,对得到的结果进行集成。
3、列举你能叫上名来的大数据集成平台?
我经常用的数据集成工具是OpenRefine,不过它算不上大数据集成平台。
大数据集成平台有:
Hadoop+MapReduce
Informatica Overhauls Data Integration Platform
Pentaho
IBM InfoSphere Platform
Ataccama
Kapow
4、说说您阅读迷你书的感想?
试读章节提供了前三章的内容,以为内容很多,实际上序言、前言、目录占据了很大的部分,前三章的内容很少,主要讲述基础概念,让读者对数据集成有个大致的认识。很好的书籍,从不同维度对企业的数据治理、数据集成提供了理论指导,很想看。 |
|