Tag Archives: HA

近来网络故障频繁的情况报告

关于近来故障频繁的情况做如下的总结和说明以及谈一谈做出的对策。

一开始我们遇到了交换中心单点故障导致全网离线的情况,这时我意识到我们在 Redundancy 方面没有任何措施。于是我开发了以 Master IX 及 Slave IX 组成的新节点交换架构,当 Master 发生故障时自动切换至 Slave 继续提供服务。但是此方案有以下缺陷:

  1. 故障检测并不是实时的,故障发生时仍然会造成最长达到 2 分钟的服务中断;
  2. 各节点切换的时间并不一致,这给网络带来了很大的不确定性;
  3. 当部分节点至 Internet Exchange Server 的链路存在不稳定性的时候极容易导致各节点不在同一个 IX Server 上,这在某些情况下反而降低了 SLA;

由于有如此多的缺点,我继续进行了第二次改进。这次我将循环更新 IXS 的间隔时间缩短一倍,并且改成 Master 与 Slave 轮流注册。这样做既保持了每台 IXS 的更新周期,并且循环更新两台 IXS,结果是每个 Node 只要使用任意一台 IXS 即可维持整个网络平稳运行。

现在只剩下一种意外情况: Node A 与 Master IX 失去联系,同时 Node B 与 Slave IX 失去联系。由于 Master 与 Slave 没有同时存有 Node A 与 Node B 的相关信息,这时会造成 Node A 与 Node B 之间的通讯故障,不过这种情况发生的概率非常低。

最后请各节点回报你们更新后的结果。

发表在 网络公告. Tagged with , , , .