查看: 2021|回复: 2

[转载] Redis集群管理工具Redis-sentinel

[复制链接]
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
跳转到指定楼层
1#
发表于 2013-4-5 22:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Redis作为高性能的key-value存储,一直在单实例上表现良好,但是长期以来一直缺乏一种官方的高可用方案支持。于是Redis-sentinel应运而生,提供了对客户端透明的高可用支持。下面文章对Redis-sentinel的原理进行了系统的讲解。希望对大家有用。

Redis-sentinel是Redis实例的监控管理、通知和实例失效备援服务,是Redis集群的管理工具。在一般的分布式中心节点数据库中,Redis-sentinel的作用是中心节点的工作,监控各个其他节点的工作情况并且进行故障恢复,来提高集群的高可用性。

Redis-sentinel是Redis的作者antirez在今年6月份完成的,因为Redis实例在各个大公司的应用,每个公司都需要一个Redis集群的管理工具,被迫都自己写管理工具来管理Redis集群,antirez考虑到社区的急迫需要(详情),花了几个星期写出了Redis-sentinel。

Redis-sentinel的三大功能:
* 监测
* 通知
* 自动故障恢复

首先Redis-sentinel要建立一个监控的master列表,然后针对master列表的每个master获取监控其的sentinels和slaves供以后故障恢复使用。

自动发现sentinel和slave

一个sentinel实例的监控master在配置文件中指定,如sentinel A在配置文件中指定管理的master iport列表,并且指定连接失败超时的时间和是否可以故障恢复等参数。这样,sentinel A就建立了监控的master列表。

sentinel A作为客户端建立对其监控master 1的pub/sub连接和命令传输连接,pub/sub连接的目的是通过消息传递来获取监控master 1的所有sentinels,具体方式是订阅”sentinel:hello”频道,并这个频道publish 自己的host信息,这样,所有监控master 1的sentinels都通过订阅master 1的“sentinel:hello”频道来获取其他sentinels的信息。sentinel A就建立了master 1的sentinels列表。 sentinel A还通过间断的info命令获取master 1的slaves列表,如果连接超时或者失败,就会进入故障处理的例程。

故障恢复准备

Redis-sentinel定义了故障的master两种状态,O_DOWN(objectively)和S_DOWN(subobjectively)。当sentinel A连接master 1失败后,sentinel A认定master 1为subobjectively状态,然后sentinel A查看监控master 1的sentinels的认定情况。因为sentinel之间会建立连接并且不断的发起info命令询问和回应,因此在sentinel A认定master 1 S_DOWN后,sentinel A通过SENTINEL IS-MASTER-DOWN-BY-ADDR命令来不断获得其他sentinel的认定情况,如果有超过quorum(配置中指定)个sentinel认定master 1已经DOWN,那么就确定master 1为O_DOWN。然后sentinel A必须有master 1的can failover权限,这也是配置文件指定的。接着,sentinel A需要得知master 1的leader sentinel,由leader来进行master 1的错误恢复。

master 1的leader sentinel由选举产生,每个监控master 1的,并且具有错误恢复权限的sentinel都需要进行一次叫做subjective leader判断,也就是sentinel自己认定的leader,然后sentinel之间通过SENTINEL IS-MASTER-DOWN-BY-ADDR命令交流leader的认定情况,然后最终得到一个共识。

然后由这个master 1的leader sentinel来启动错误恢复例程。

论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
2#
 楼主| 发表于 2013-4-6 21:31 | 只看该作者
故障处理

sentinel A作为master 1的leader,会选取一个master 1的slave作为新的master。slave的选取是根据一个判断DNS情况的优先级来得到,优先级相同通过runid的排序得到,但目前优先级设定还没实现,所以直接获取runid排序得到slave 1。

然后发送命令slaveof no one来取消slave 1的slave状态来转换为master。当其他sentinel观察到该slave成为master后,就知道错误处理例程启动了。sentinel A然后发送给其他slave slaveof new-slave-ip-port 命令,当所有slave都配置完后,sentinel A从监测的masters列表中删除故障master,然后通知其他sentinels。

总结

Redis-sentinel作为一个集群管理工具,基本满足了要求。但是Redis集群的需求却仍然存在。Redis集群作为分区结果,分区的配置仍然需要客户端或者代理协议实现,Redis集群作为一个整体还需要更长的路。Redis-cluster的草案早于出炉,但是实现却已经停留了很久。antriez承诺在Redis 3.0推出Redis-cluster功能。

使用道具 举报

回复
论坛徽章:
277
马上加薪
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有车
日期:2014-02-19 11:55:14马上有车
日期:2014-02-18 16:41:112014年新春福章
日期:2014-02-18 16:41:11版主9段
日期:2012-11-25 02:21:03ITPUB年度最佳版主
日期:2014-02-19 10:05:27现任管理团队成员
日期:2011-05-07 01:45:08
3#
 楼主| 发表于 2013-4-6 21:31 | 只看该作者
over.

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表