解决方案

  • 嗖的一下,让数据自动生效!

    有读者可能会想到,使用上线的方式去解决上述问题不就可以了嘛?然而,上线是一个比较繁琐的过程,要经过一系列严格的审批。上线的主要对象为程序,程序变更引入的bug导致服务异常的概率要高于数据变更,并且程序变更频率也很低,因此上线会引入一系列严格的审批流程。在数据变更高频率与低风险的背景下,上线很难满足数据变更的需求。

    2018-04-17

  • SREcon大会预告 | 百度运维专家对智能故障诊断的思考

    3月27-29日,国际顶级运维专家会议SREcon18即将在美国加利福尼亚州举行,百度云智能运维团队的陈宇老师受邀参加,将会分享我们在智能异常检测和故障诊断方向的研究成果。

    2018-04-17

  • 今天我们来聊一个很高级的话题:如何设计一个大规模远程命令执行系统

    书接前文,在上一篇文章中我们介绍了大规模命令执行的意义以及所面对的问题和困难,简单介绍了百度集群控制系统(Cluster Control System,以下简称CCS系统)通过构建两级数据模型、四级调度模型、三级代理执行的方式解决了这些问题,在本篇文章中,我们将续接前文,继续对CCS系统的设计实现进行详细剖析。

    2018-04-17

  • 今天我们来聊一个很基础的话题:如何执行一条命令

    今天我们不聊上层建筑,不聊单机房自愈,也不聊智能运维的暗夜与黎明,今天我们聊一个很基础的话题:如何执行一条命令。许多人看到这,可能觉得这是一个简单至极的问题,事实果真如此吗,别急,下面我们来抽丝剥茧,一探究竟。

    2018-04-17

  • 故障定位场景下的数据可视化实践

    百度拥有上百条产品线,数十万的服务,每个服务时时刻刻都在产生着海量的监控数据,形成的监控项规模总数已达数十亿。面对如此海量的数据,在日常运维(如故障诊断、成本分析、性能优化等场景)过程中,传统的统计图表难以有效直观地展示如此庞大的数据。因此,优秀的监控数据可视化产品就呼之欲出,他既要数据准确、全面、时效性高,也需要提升用户的使用体验,使其能在茫茫数据中一眼就能发现想要观察的数据。

    2018-04-17

  • 重磅:构建AIOps的MNIST

    我们在《AIOps时代,你准备好了吗?》一文中提到,运维操作一般可以分为感知、决策、执行三部分,而在感知阶段我们通过识别服务指标数据中不符合预期的模式来发现服务异常,即监控数据的异常检测。

    2018-04-17

  • 百度佛系程序员开始讲经啦,监控报警那些事儿

    Argus(Noah 监控3.0)是百度内部最大的监控平台,提供了机器监控、进程监控、日志监控、远程监控、自定义监控等多种监控方式。它还支持集群级别的监控配置和管理,并支持复杂的异常判断,提供多种途径的报警手段。

    2018-04-17

  • 为何说自动化运维三大要素是标准化、工程化和智能化?

    智能运维开发框架以变革运维模式为目标,提供了开发、验证、运维工程化解决方案。一经上线,便作为各类故障自愈、高可用架构项目的基础支撑,大幅提高了项目开发效率,减小了开发难度和成本,表现出了极强的稳定性。

    2018-04-12

  • 每页显示 共67条数据 < 1 2 3 4 5 6 7 8 9 >      到第 GO

百度技术专区

百度技术专区是汇聚千万开发者的交流平台,内容覆盖人工智能,大数据,云计算三大热点技术领域,通过在线课程,实战训练,技术博文,线下沙龙,问答社区等方式向开发者共享百度核心技术、数据和资源。

您还可以通过关注百度云官方微博或者微信公众号更快的了解我们的最新资讯!

立即加入百度云