解决方案
-
SREcon是由计算机科学领域的知名机构USENIX主办,Google、Facebook等硅谷互联网巨头联合成立的运维专家会议,每年定期举行。参与会议的嘉宾来自于Google、Facebook、Baidu、Twitter、LinkedIn等国际知名互联网公司的顶级专家,讨论系统和软件的交叉性创造性工程相关的议题,一般包含大规模网站可用性提升、资源优化及性能改善等,SREcon上的讨论往往会成为未来很长一段时间运维领域的风向标。
2018-04-08
-
今天我们来聊一个很高级的话题:如何设计一个大规模远程命令执行系统
通过构建CCS系统,我们解决了命令在大量服务器上规模执行的问题,目前已在百度内部广泛使用。但回顾从设计到上线运行至今的用户反馈及故障处理,还有很多不完美的地方,如命令传输的时效性现在只达到了秒级,目前我们正在尝试优化,多机热备方案是否必要,我们也在着手分析,希望一段时间以后,我们可以拿出更优的方案与大家分享。
2018-04-08
-
今天我们不聊上层建筑,不聊单机房自愈,也不聊智能运维的暗夜与黎明,今天我们聊一个很基础的话题:如何执行一条命令。
2018-04-08
-
我们介绍了百度智能监控平台在全局故障分析、细分维度定位、事件关联定位三个故障定位阶段中进行的数据可视化探索。当前百度智能监控平台已成为百度各大业务可用性保障必不可少的利器。
2018-04-08
-
本文将主要介绍在监控数据异常标注实践中遇到的问题和解决方案,并给出一个当前由百度智能运维团队与清华大学Netman实验室合作研发的辅助标注工具原型 https://github.com/baidu/Curve ,欢迎大家一起探讨。
2018-04-08
-
本篇文章主要介绍了百度监控平台报警通路子系统的核心功能,在报警规则、异常判断、警报自动化处理、报警过滤等方面做了详细介绍。
2018-04-08
-
我们为大家解析了百度内网流量调度系统。这是基于百度复杂的内网结构和多样的业务,综合考虑功能、成本、性能、可用性等指标的一种工程实践。随着DevOps 的不断发展,新的服务框架和方案不断涌现。例如 istio,linkerd 等开源项目都为服务发布、测试、追踪等流量调度的典型场景提供了新的解决方案和思路。
2018-04-08
-
本文将详细介绍百度智能云IOP团队针对服务间流量调度需求提出的解决方案。
2018-04-08