解决方案
-
本文主要介绍单机房故障自愈前需要进行的准备工作,具体包括: 单机房容灾能力建设中遇到的常见问题及解决方法 基于网络故障及业务故障场景的全面故障发现能力 百度统一前端(BFE)和百度名字服务(BNS)的流量调度能力
2018-04-08
-
我们针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业务指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与百度名字服务(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量与实时流量调度自动止损策略与管控风险,实现了任意单机房故障时业务均可快速自愈的效果。当前此解决方案已覆盖搜索、广告、信息流、贴吧、地图等众多核心产品的单机房故障自愈场景。
2018-04-08
-
2014年以来,百度运维开始向智能化方向迈进。智能运维时代,如何提高智能运维效率,降低通用运维操作(典型如故障场景)开发难度和成本,成为首要难题。本文将向大家介绍面向感知、决策、执行的百度智能运维工程化解决方案。
2018-04-08
-
近年来,TSDB 在智慧城市、物联网和车联网等等领域都有着十分广泛的应用,更是成为监控场景的标配基础服务。在《百度大规模时序数据存储》系列的四篇文章中,我们为读者介绍了大规模 TSDB 从模型到功能再到架构的设计实践,但从实际的需求出发,我们认为 TSDB 的架构设计思路和功能侧重点并不局限于文中所述。
2018-04-08
-
本篇为大家介绍了我们 TSDB 中两个重要的功能:分库分表和多级降采样,这使我们从功能的设计上消除了在大规模场景下系统遇到的一些性能瓶颈。
2018-04-08
-
对于 Go 语言和 Docker 这两种技术,在国内的技术圈中有相当大的一部分人和群体还在持观望或是不信任的态度。所以,我想写这篇文章,从两个方面来论述一下我的观点和看法。本文摘自陈皓(左耳朵耗子)在极客时间开设的专栏“左耳听风”。
2018-04-08
-
底层存储选型和数据模型设计是 TSDB 设计中的两个重要的基础环节,前者决定了后者的设计思路,后者的设计影响上层功能的设计实现,二者又与集群的架构设计和性能表现息息相关。
2018-04-08
-
本文主要介绍百度运维部监控架构团队在处理大规模日志计算任务时,为保证任务分配均匀性和稳定性,对原始一致性哈希算法进行改进。新算法在保持原始一致性哈希算法稳定性的同时,通过设置不均衡因子来控制分配的不均匀范围,达到负载分配均匀性与稳定性有效兼容。
2018-04-08