ITPUB论坛-中国专业的IT技术社区

 找回密码
 注册
查看: 5192|回复: 3

【名人堂】快问快答——腾讯高级DBA冯伟源:从零到一打造高可用的公有云Redis

[复制链接]
认证徽章
论坛徽章:
0
发表于 2018-4-4 17:53 | 显示全部楼层 |阅读模式
本帖最后由 猫乐大人 于 2018-4-4 18:12 编辑

嘉宾介绍:
冯伟源,腾讯高级DBA,从腾讯云redis开售阶段就介入运维,曾运营管理QQ业务万台数据库设备,在海量NOSQL运维建设经验。演讲者有7年Oracle/MySQL DBA经验。

2018中国数据库技术大会(DTCC)
5月10日下午 专场2:云时代的数据库(上)
主题:从零到壹打造高可用的公有云Redis服务
演讲简介:主要阐述腾讯云redis的系统架构,运营规划,管理手段,高可用服务打造方式,资源调度方案、故障处理、故障案例,运维平台建设等方面,向大家阐述云redis是如何从零开始运营起来的直到高可用可靠服务,过程中遇到什么困难,从中看到的风景与心得体会,以此沉淀的公有云redis运维方法论。此演讲面向运维、DBA、运营开发与系统架构的同事。

DTCC(Q1):  请您介绍下自己的从业经历。
冯伟源(A1): HI,大家好,我是冯伟源。毕业后就在平安担任DBA的工作,对寿险产险不动产投资信托等金融业务进行业务架构支持。后来在唯品会担任数据库工程师,主要支持订单商品购物车网站等数据库业务。主要从事SQL优化,实例调优,数据库运维,架构等工作,比较熟悉Oralce,Mysql,Redis等主流开源技术。15年加入到腾讯公司,主要从事海量NoSQL数据库集群运维。

DTCC(Q2):  目前,您主要负责哪些业务方向工作。
冯伟源(A2): 近三年我在腾讯SNG担任DBA工程师。我们这个团队支撑QQ,QQ群,Qzone,音乐,腾讯云等数据库的运营保障工作,每个人都必备开发能力,类似于谷歌的SRE,运维亚洲最大体量的NoSQL分布式DB集群,约两万多台设备,人均2000台设备,访问量达亿级QPS,有近300T内存存储,2PB SSD存储,四大类型的数据库,包含RDBMS,NoSQL,NewSQL等。在这几年中,我个人聚焦于海量数据库的运营管理工作,包括数据库管理与业务支持,自动化运维开发,运营平台产品经理等工作。

DTCC(Q3): 管理数万台数据库,谈下运维的心得体会。
冯伟源(A3): 在运营管理上,《服务白皮书》,《服务等级协议》,《DO分离标准》都逐步落地。其次,服务的星级管理,对外提供服务台,做好问题与事件管理,对资源心中有数,做好成本和预核算管理等,都是管理万台设备的必要工作。
在设备管理上,关键是运维资源与方法能否跟上业务发展的速度,跟上时代的步伐,以及你是否有决心,目标去控制运维环境的剧烈熵增,不断拓宽自身的技术宽度,拥抱新的运维技术方向。

DTCC(Q4): 在数据架构选型中,更关注哪些因素?
冯伟源(A4): 引入一种新的数据架构,考量因素还是挺多的。我会去看数据库的白皮书与其他文档是否齐全,了解他是如何工作的,功能是否丰富,对外的API是否齐全,有什么约束与限制等等。性能方面,数据库能支撑多大的读写量,数据库的垂直与平行扩展能力怎么样,在CAP上的侧重,同步效率与一致性,负载均衡是如何做的,柔性策略如何,有问题时能否优雅降级,版本能否热升级,数据的冗余性如何,有没审计手段,自动化水平如何,安全性如何,对海量数据的支持程度如何等都是考虑的重点。
其次,数据库主要的资源消耗与瓶颈最可能出现在哪里,高可用是怎么做的,成本如何,整体的易用性与可维护性如何,部署方式是怎么样的,是否有信息上报与告警模块,数据库对硬件与操作系统有什么要求,是否能跟公司整体基础环境相匹配。如果是开源的话在github上被收藏的数量,项目最近几年的更新情况。

DTCC(Q5): 请分享一段有关运维的难忘经历。
冯伟源(A5): 去年年初的一天,我正准备跟同事们去吃饭时,手机突然收到“腾讯自动语音告警”的来电,业务ID 394521模调成功率下跌到0%。与此同时,我的同事手机微信也都收到了DLP告警。ROOT系统在手机上,也显示是数据库有问题。
打开业务视图,输入告警的业务ID,数据仓库监控一切正常,之后又进行了其他排查。我就想,业务架构逻辑,仓库正常,业务逻辑模块正常,流量跌零,网络正常,大机率是路由出了问题,最终查出路由里的接入服务器IP列表都不是正确的接入服务器IP。
排查问题根源,发现是有非正常途径的路由变更操作,路由系统运维在接口变更记录里看到在11点46分,有一个IP做变更,将该业务ID的所有接入服务器变更为一台测试接入服务器。在CMDB(配置中心)里查到此IP是开发测试机。
故障解决后,QA同学拉起现场会复盘故障的整个流程。告警触发、响应速度、根源追查、故障恢复等都在预期之内。但故障反映出运维开发工具的不规范:运维开发对运维环境不了解,工具在生产环境随意测试,测试时未知会运维人员,核心代码无审核的问题。
运维人员掌握着生产环境的生死大权,相对产品功能BUG,运维的脚本BUG,或者操作疏漏,造成的危害都是极大的,甚至会导致现网全网故障。因此,“工具上线前要严格测试和灰度验证”,不把BUG引入生产环境,不仅是DBA,也是全体运维必须把握的原则。

DTCC(Q6):   给自己起个技术绰号,更愿意被称作?
冯伟源(A6): 我好想没什么绰号,不过我以前有个昵称,叫白老大。

DTCC(Q7): 为什么选择redis作为系统框架,其优势在哪?
冯伟源(A7): Redis这个词本身是远程数据结构服务。它有着简洁而极致的设计理念,支持多种数据结构,能满足业务开发在队列,缓存,广播甚至是持久化存储上的需求。Redis现在是KV数据库热度榜第一名。

DTCC(Q8): 对DTCC2018说一句话,最想说?
冯伟源(A8): 要走得快,就一个人走;要走得远,就要大家一起走;愿我们的社区发展得越来越好。


DTCC2018,用心才懂技术!

中国数据库技术大会(简称DTCC)是国内数据库及大数据领域规模最大、最受欢迎的技术交流盛会,每年一届。自2010年以来,迄今已成功举办了八届,累计参与人次达到20000+。DTCC每年都将邀请百余位行业专家,就热点技术话题进行分享,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。
2018年5月10-12日,第九届中国数据库技术大会(DTCC2018)将如约而至。本届大会以“数领先机•智赢未来”为主题,设定2大主会场及21个技术专场,邀请来自国内外互联网、金融、教育等行业百余位技术专家,共同探讨Oracle、MySQL、NoSQL、大数据、机器学习、区块链、数据可视化等领域的前瞻性热点话题与技术。
欢迎扫码关注DTCC官方微信,获取最新信息!

论坛徽章:
400
紫蛋头
日期:2012-05-21 10:19:41迷宫蛋
日期:2012-06-06 16:02:49奥运会纪念徽章:足球
日期:2012-06-29 15:30:06奥运会纪念徽章:排球
日期:2012-07-10 21:24:24鲜花蛋
日期:2012-07-16 15:24:59奥运会纪念徽章:拳击
日期:2012-08-07 10:54:50奥运会纪念徽章:羽毛球
日期:2012-08-21 15:55:33奥运会纪念徽章:蹦床
日期:2012-08-21 21:09:51奥运会纪念徽章:篮球
日期:2012-08-24 10:29:11奥运会纪念徽章:体操
日期:2012-09-07 16:40:00
发表于 2018-4-8 09:32 | 显示全部楼层
两万多台设备,人均2000台设备,访问量达亿级QPS,有近300T内存存储,2PB SSD存储

使用道具 举报

回复
招聘 : 数据库管理员
认证徽章
论坛徽章:
99
技术图书徽章
日期:2014-03-27 09:30:56秀才
日期:2018-04-08 14:48:31
发表于 2018-4-10 17:08 | 显示全部楼层
我觉得,应该每个季度,都组织一下,腾讯啊,zte,华为啊,联想啊。业界leader 给大家讲解,哪怕是组织大家过去看视频,增加一个现场解答沟通的环节也好。

使用道具 举报

回复
发表于 2018-5-11 10:58 | 显示全部楼层
不错。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 虎吧 老博客 知识索引树 读书频道 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛 | SAP ERP系统
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表