ITPUB论坛-中国最专业的IT技术社区

 找回密码
 注册
查看: 231949|回复: 3

【名人堂】专访柏睿数据华东区总经理杜正浩:快到“不可思议”的纯内存数据库

[复制链接]
认证徽章
论坛徽章:
10
托尼托尼·乔巴
日期:2017-07-18 13:02:53秀才
日期:2017-07-11 13:54:02目光如炬
日期:2017-06-26 17:00:03蒙奇·D·路飞
日期:2017-03-09 11:24:29水瓶座
日期:2016-04-15 16:17:04秀才
日期:2016-03-24 09:10:242016猴年福章
日期:2016-01-27 14:16:27猴赛雷
日期:2016-01-27 14:16:27秀才
日期:2015-12-14 14:56:09秀才
日期:2017-09-18 17:32:11
发表于 2016-5-10 16:32 | 显示全部楼层 |阅读模式
嘉宾介绍

杜正浩先后供职于万达信息,SUN,Oracle,HP等知名企业,超过18年IT从业经历。国内MPP数据库的先驱者之一,在数据研究和提供数据解决方案方面拥有丰富的经验。

duzhenghao.jpg

duke217(Q1):杜总,您好!很高兴今天能采访到您。首先还请您跟我们的网友打声招呼,并简单介绍下自己和公司产品。

杜正浩(A1):您好!广大网友朋友好!我是来自柏睿数据科技(北京)有限公司的杜正浩,我从浙江大学毕业开始,就投身到“挨踢”这个产业。我的职业生涯应该算经历了计算机系统的“全技术堆栈”,从业务分析调研,到代码开发,然后转为系统管理员,数据库管理员,后来再投靠外企做售前工程师,系统架构师,进而转型到市场工作,2015年我从前东家来到柏睿数据,希望能为民族软件产业贡献自己的力量。

柏睿数据创立于2014年,是一家专注于大数据实时处理基础平台的公司,以“基于内存计算的海量数据的实时分析处理”为核心产品,形成了针对政府、移动通信、金融、零售、制造业等不同行业、不同规模、不同应用的解决方案,是一家小而专的技术创新型企业


duke217(Q2):我了解到,你有着超过18年的IT从业经历,可谓是经验丰富。那么您是否能够和我们分享下,有哪些令您印象深刻的故事么?

杜正浩(A2):技术的变革往往会令我们的“经验”显得可笑。比如我自己大学时代配一台PC 128MB内存已经算顶配了,现在的一台笔记本电脑4GB内存是起步配置,而在某些集群环境下的内存都是以TB为单位进行容量估算的。如果说这种变化仅仅是因为神奇的“摩尔定律”起作用的话,那么软件架构上的变革引起的结果更令人感觉匪夷所思。记得08年左右,MPP概念在国内刚兴起,我到BAT当中的某一家客户介绍Greenplum数据库,作为当时的Oracle和MySQL的坚定拥护者,客户对自己的数据库能力是极度自豪的,但是还是对某一个系统的海量数据处理能力感到力不从心。听完我的介绍,客户对MPP数据库将信将疑,立即让我动手帮他们现场安装了一套,当我把查询结果展现在他们面前的时候,客户的第一反应是“你作弊了吧!怎么可能?”。直到客户最后自己亲手测试,才真正对MPP的强大并行处理能力竖起了大拇指。

柏睿数据的Rapids DB作为一款MPP架构的纯内存数据库,有两个关键词,一个是软件的MPP架构,一个是纯内存化的数据存储与处理。与目前各种主流的disk—base的数据库相比,也一定也会让所有使用者感到快到“不可思议”


duke217(Q3):我们经常听到的一个说法,用MPP处理PB级别的、高质量的结构化数据;用Hadoop实现半结构化、非结构化数据处理。但现在出现一种新的观点,那就是随着SQL在性能上及安全容错上的不断提升Hadoop会取代MPP,混合架构将会消失。您作为国内MPP数据库的先驱者之一,对此观点又有何见解?

杜正浩(A3):首先我给大家简单介绍一个前几个月拜读的一个神图,它按照时间序列和“NoSQL”的含义做了一个阐述,具体是:

        1970:NoSQL = We have no SQL
        1980:NoSQL = Know SQL
        2000:NoSQL = No SQL!
        2005:NoSQL = Not only SQL
        2013:NoSQL = No, SQL!

了解SQL发展史的同学们看到这张图,应该都回会心一笑。SQL作为最流行的人机交互数据处理语言,在新世纪遇到了空前的“危机”, 铺天盖地的NoSQL浪潮似乎将要把SQL彻底淘汰。事实呢,繁华喧闹之后,两种技术的共存已经成为普遍共识,而所有的NoSQL都在想办法尝试支持关系数据库。

回到我们的问题上来,Hadoop其实和MPP的思想很接近,都是分布式并行数据处理的一种实现。Hadoop从最早HDFS分布式文件系统和MapReduce算法,根据不同的应用场景已经分化出大大小小几十种分支工具,如Hive/ HBase/ Storm/ Flume/ pig等,每个分支都有其特有的应用环境和特长领域,进而逐渐形成了广义上的Hadoop生态圈。因此我的观点很简单,没有一个产品能包罗万象一统江湖,我们只有认真分析用户的实际数据和应用场景,去选择相应使用的技术产品,而不能简单的断论哪个产品能替代哪个。Hadoop技术出现也才十多年的时间,世界上最早的MPP数据库厂商Teradata到现在将近四十年了,而且还在持续的创新,你能说哪个技术更成熟些吗?

柏睿数据的Rapids DB作为一款MPP架构的数据库,从产品设计之初就有了架构上的革命性创新,首先它是一款纯内存化的数据,相比传统数据库有10X~30X以上的性能提升;更重要的是,我们首次提出了“联邦数据引擎”的概念,结合我们的流数据库Rapids Stream和Rapids Hadoop,能够在同一个数据处理引擎上,同时处理用户的“热数据”“温数据”和“冷数据”。

建议大家心怀对技术创新的敬畏之心,拥抱这个百花齐放的技术盛世


duke217(Q4):在您看来,当前国内数据库研发领域最大的问题是什么?作为一家企业级领域的创业公司,又应该如何与巨头竞争?

杜正浩(A4):数据库作为IT基础架构里面的底层核心组件,需要巨大的长期的研发投入,以及投入市场接受检验后的持续更新。我认为国内数据库厂商最大难处是如何平衡投入与产出的矛盾,怎样才能静下心来苦练内功,不被外部浮躁的商业环境和日新月异的技术更新所左右。既然是底层组件,只有甘做少林扫地僧,扎扎实实的把核心构造好,才能练成绝世武功。

从另一个角度来说,国内的广大客户,至少应该给国内数据库公平的竞争环境,甚至是更为宽松的条件,而实际情况是,国内用户宁愿“选择国外产品,出了问题也不用承担责任,但是选择了国产数据库,相关决策人就要承担风险”。殊不知,强大如Oracle这样全球顶尖的数据库产品,每个季度都要推出上千个补丁不断修正产品缺陷,而正是由于大量的市场反馈,才让Oracle数据库不断的精益求精


duke217(Q5):2016中国数据库技术大会到今年也是第七届了,您此前是否参加过中国数据库技术大会?能谈谈您对大会主题“数据定义未来”的理解么?

杜正浩(A5):很遗憾,之前没有参加过。

大家一定都听到过,我们已经从IT时代转变到了DT时代,为什么这么说呢?

工业4.0带来的世界产业格局的剧烈变化正在席卷全球,这种变化让我们身边的每个人都身临其境,同时也身处迷雾。随着个性化制造的初级阶段过后,跨界必将成为商业行为的主流,卖手表的可以做个人人寿了;做车联网的可以卖保险了,做皮鞋的可以做旅游了...所有这些背后流淌的都是源源不断的数据。

万物互联的物联网时代将人和世界通过数据连接在一起,每个人的喜好厌恶,衣食住行,甚至喜怒哀乐都在这张看不见的大网里。一个人的任何行为,既利用现有系统里已“存在”的数据向自身提供帮助;同时又向系统中“提交”了新的数据,进而又再一次对后续的行为产生影响。对此,互联网巨头谷歌公司的执行董事长埃里克•施密特进行了大胆的自我颠覆式的预测:互联网即将消失,物联网即将崛起。

面对如此巨大的计算能力和近乎天文数字的数据量,移动互联、云计算、大数据等新兴技术得以蓬勃发展,并反过来不断推动物联网远景的不断落地。想象一下,每一个商业行为都有“比你更了解你”的、几近完美的数据模型在背后支撑,每个人无时不刻的行为都在为这个数据体系增加新的输入,是不是感觉就像生活在“骇客帝国”里的人物?


duke217(Q6):您这次在DTCC2016分享的主题是流数据库在物联网时代的应用,那么能否提前透露一下,你们的流数据库和大数据处理平台RDP,都解决了大数据处理的哪些问题?

杜正浩(A6):正如之前提到,万物互联的背后是生生不息的数据,这些数据跟咱们传统上理解的数据不太一样,那就是这里面的很多数据具有时效性,而对这些数据处理的结果也是有时效性的要求的。举一个最简单的例子,一个典型大数据的应用中,可以对正在某个CBD里购物的高端客户,根据精确的用户画像对其进行精准营销。从这个客户进入特定商圈开始,背后的计算系统需要快速捕捉的该客户的来访信息,对其喜好进行迅速定位,并及时的将营销信息推送出去,如果这一系列动作,不能在客户离开这个商圈之前完成,那么所有的信息将变得毫无意义。

在上述案例中,系统的正确性不仅依赖于逻辑结果,还依赖于逻辑结果产生的时间,这就是一个典型的流数据库应用场景。大家可以想象成一个净水处理池,一个进水管和一个出水管,进水管里源源不断流入的水就是流数据,为了避免池子里的水溢出,需要在规定时间内尽快处理完毕,并将处理结果通过出水管排出,柏睿数据的流数据库Rapids Stream就是这样一款产品。它能够针对各种以“流”的形式存在的数据,提供实时的SQL处理接口,用户可以非常灵活的以指定时间片或者记录数进行基于窗口(windows)的数据处理操作。另外,它能够无缝的与内存数据库Rapids DB和Rapids Hadoop集成在一起,构成了完整的大数据处理平台RDP(Rapids Data Platform),为客户提供统一的海量数据实时分析处理引擎。


duke217(Q7):再次感谢您能够接受我们的采访,非常期待您在2016中国数据库技术大会上的精彩分享,最后,请您为我们送上一句祝福吧!

杜正浩(A7):祝大会圆满成功,也祝国产数据库产品早日登堂入室,扬眉吐气!



论坛徽章:
394
阿斯顿马丁
日期:2014-01-03 13:53:522014年世界杯参赛球队:喀麦隆
日期:2014-07-11 12:10:53马上有对象
日期:2014-04-09 16:19:542014年世界杯参赛球队: 洪都拉斯
日期:2014-06-25 08:25:55itpub13周年纪念徽章
日期:2014-09-28 10:55:55itpub13周年纪念徽章
日期:2014-10-01 15:27:22itpub13周年纪念徽章
日期:2014-10-09 12:04:18马上有钱
日期:2014-10-14 21:37:37马上有钱
日期:2015-01-22 00:39:13喜羊羊
日期:2015-02-20 22:26:07
发表于 2016-5-10 20:21 | 显示全部楼层
与kdb+比呢

使用道具 举报

回复
论坛徽章:
394
阿斯顿马丁
日期:2014-01-03 13:53:522014年世界杯参赛球队:喀麦隆
日期:2014-07-11 12:10:53马上有对象
日期:2014-04-09 16:19:542014年世界杯参赛球队: 洪都拉斯
日期:2014-06-25 08:25:55itpub13周年纪念徽章
日期:2014-09-28 10:55:55itpub13周年纪念徽章
日期:2014-10-01 15:27:22itpub13周年纪念徽章
日期:2014-10-09 12:04:18马上有钱
日期:2014-10-14 21:37:37马上有钱
日期:2015-01-22 00:39:13喜羊羊
日期:2015-02-20 22:26:07
发表于 2016-5-11 11:00 | 显示全部楼层
〇〇 发表于 2016-5-10 20:21
与kdb+比呢

kdb+
插入200w行(1个varchar 'abc' 1个整数0-1999999)
75ms

使用道具 举报

回复
认证徽章
论坛徽章:
2077
双黄蛋
日期:2015-01-05 11:32:28亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18亚特兰大老鹰
日期:2015-01-05 11:33:18
发表于 2016-5-12 16:30 | 显示全部楼层
zhichi

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

SACC2017购票8.8折优惠进行时

2017中国系统架构师大会(SACC2017)将于10月19-21日在北京新云南皇冠假日酒店震撼来袭。今年,大会以“云智未来”为主题,云集国内外顶级专家,围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置2大主会场,18个技术专场;邀请来自互联网、金融、制造业、电商等多个领域,100余位技术专家及行业领袖来分享他们的经验;并将吸引4000+人次的系统运维、架构师及IT决策人士参会,为他们提供最具价值的交流平台。
----------------------------------------
优惠时间:2017年8月30日前

活动链接>>
TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 虎吧 老博客 知识索引树 读书频道 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛 | SAP ERP系统
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表