微信分享
第28届智能体驱动的GOPS全球运维大会 · 深圳站

使用微信扫一扫分享到朋友圈

活动分享
第28届智能体驱动的GOPS全球运维大会 · 深圳站

使用微信扫一扫进入小程序分享活动

活动详情

    当前,智能体(Agent)技术正以前所未有的深度重塑IT领域的生产范式。从运维自动化的闭环决策到开发环节的智能协同,从测试流程的自主验证到基础设施的AI驱动,智能体正成为推动研发运维体系向自治化、智能化演进的核心引擎。


    在这一关键发展窗口,第28届智能体驱动的GOPS全球运维大会2026·深圳站将于2026年4月17日-18日隆重启幕。大会由高效运维社区(GreatOPS)与BizDevOps软件工厂联合主办,DAOPS基金会、开放运维联盟(OOPSA)指导,作为业内IT技术的高端行业盛会,GOPS大会自2015年发起以来已成功举办27届,覆盖国内外城市包括北京、上海、深圳、美国硅谷、新加坡举办,主要面向IT行业的中高端技术人员,累计吸引超9万人次参会,覆盖金融、通信、制造、互联网等各行业一线技术决策者与实践者。


    本届大会为期2天,侧重运维智能体、开发智能体、测试智能体、AI Infra、AI+DevOps、SRE、AIOps、AI+可观测性等热门技术领域。与行业一线专家共同探讨智能体驱动下的技术变革。


【渠道合作】

 渠道总监:刘   欣 158 0111 5386(微信同号)


【赞助和门票业务咨询】

 业务经理:周   静 130 7118  2180 (微信同号)

 业务经理:刘毅菲 130 2108 2989(微信同号)


【议题申报】

项目负责人:刘   杰 156 5212 7323(微信同号)小   雪 131 4122 7956(微信同号)

演讲专题

大会演讲专题_01(1).png

大会智囊团/出品人
  • 萧田国
    高效运维社区 发起人
    GOPS 全球运维大会 发起人
    演讲主题:主办方致辞:拾级而上:GOPS十年筑基之路
    个人简介: 萧田国,DAOPS 基金会全球董事,DevOps 时代社区和高效运维社区发起人,开放运维联盟联合主席,GOPS 全球运维大会发起人,复旦大学特聘讲师。2004年硕士毕业于北京科技大学,先后就职于联想集团、搜狐畅游、智明星通和触控科技等,十余年互联网运维及开发运维( DevOps)从业经验。
  • 党受辉
    腾讯 IEG
    技术运营部助理总经理
    腾讯蓝鲸创始人
    演讲主题:大型SRE组织设计与建设
    主题简介:
    某大型互联网公司的SRE岗位建设,包括职能、晋级标准、落地方案、过渡计划 收益:可以给正在转型或即将转型的运维团队一定的参考,包括如何基于现有架构的过渡方案,减少转型对业务及现团队的冲击
    个人简介:
    曾就职于东软集团,为能源行业定制信息化体系,加入腾讯后负责运维团队管理。2012年负责互动娱乐事业群研发运营基础PaaS(蓝鲸)的设计、建设和运营。结合微服务、云、大数据等理念及前沿技术,通过PaaS实现研发运营一体化,并通过SaaS化产品,助力支撑团队转型升级,推动 DevOps 生态及 AIOps 落地。
  • 腾讯开源联盟主席单致豪
    单致豪
    腾讯开源联盟主席
    演讲主题:腾讯基础软件开源与 OpenTenBase 开源实践
    议题简介:本次演讲将围绕腾讯基础软件开源取得多项重要进展,包括新版本发布、上游社区贡献、应用落地等,持续推动行业创新与合作。同时随着近年来全球数据库行业发展趋势,开源与分布式架构逐渐成为焦点,也将介绍腾讯在分布式数据库领域的开源进展情况及实践。
    个人简介: 单致豪,现任腾讯开源联盟主席,专注在云原生、微服务、边缘计算、大数据、操作系统等领域的开源生态建设。为腾讯建立健康的开源生态努力,致力于以开源方式加速技术和产品的创新。作为腾源会导师,开展与开发者和开源组织的开源创新协作。同时,担任Linux基金会董事会成员、TARS基金会董事主席、FinOps基金会董事成员、NextArch基金会TOC、OpenCloudOS社区秘书长、Akraino边缘计算TSC、开放原子开源基金会TOC、木兰开源社区TOC、中国云原生产业联盟技术专家、开源社顾问委员。曾获InfoQ十大开源杰出贡献人物、中国信通院尖峰开源人物、COPU中国优秀开源人物、SegmentFault中国开源先锋、GOPS微服务年度风云人物、Go中国最具价值专家。
  • 彭云鹏
    百度
    智能研发团队副总经理
    演讲主题:软件工程智能化变革的探索与实践
    议题简介:AI 时代下,大模型已赋能到各行各业,而软件研发是落地最早,效果最为突出的领域。从以续写、问答为主的智能代码助手,到如今可实现端到端需求级生成的各种编码、测试智能体。随着能力形态的升级,软件工程也在发生着智能化变革。本主题分享将围绕软件工程智能化变革的四个阶段,百度在这个变革中,技术上的探索以及整个集团的落地实践进行展开,和听众深入探讨在这个变革中,人与 AI 的协同关系,工程师如何通过 AI 的赋能提升自身的能力和竞争力,企业如何打造自己智能化的软件工程,提升企业研发效率,加速创新,实现业务突破。
    演讲提纲:
    1、软件工程智能化变革;
    2、智能化变革背后的技术迭代;
    3、百度软件工程智能化的实践。
    听众收益:
    1、了解软件工程智能化变革的四个阶段,当前的状态,以及未来的趋势;
    2、了解构建软件工程智能化能力背后的技术迭代;
    3、通过百度的软件工程智能化实践,探索自身企业智能化变革之路。
    个人简介: 彭云鹏,百度智能研发团队副总经理,负责文心快码 Comate 智能代码助手、云 IDE、需求管理平台、代码分析平台和效率云平台等业务和团队。在代码智能化、静态分析、开发工具、软件测试、研发数字化等领域申请国内外发明专利70个,已获授权专利37个。国家重点研发计划《基于编程现场大数据的软件智能开发方法和环境》技术骨干,国家高质量专项《基于大模型技术的工业领域智能化开发工具项目》技术骨干,OpenHarmony 技术指导委员会 IDE TSG 成员。
  • 科大讯飞 智能研发解决方案负责人 效能平台首席技术专家薛增奎
    薛增奎
    科大讯飞 智能研发解决方案负责人 效能平台首席技术专家
    科大讯飞 效能平台首席技术专家
  • 陈迪豪
    顺丰科技
    AI 技术平台负责人
    AIOps 项目算法负责人
    演讲主题:基于 DeepSeek 和多智能体的根因定位系统实践
    议题简介:随着 IT 系统复杂度呈指数级增长,传统运维模式在故障根因定位中面临效率与准确性的双重挑战。AIOps 技术作为破局关键,正朝着智能化、自动化的方向快速演进,而大模型的崛起为复杂场景的因果推理与知识泛化提供了全新可能。本演讲聚焦多智能体协同架构与大模型技术的深度融合,系统解析如何通过多智能体分工协作构建新一代 AIOps 体系,并分享 DeepSeek 大模型在复杂运维场景中的落地实践。
    演讲提纲:
    1、AIOps 和 RCA 技术演进趋势;
    2、基于多智能体的运维体系搭建;
    3、大模型落地多场景根因定位系统;
    4、DeepSeek 等大模型优化与实践。
    听众收益:
    1、把握 AIOps 与根因定位技术的前沿方向,了解多智能体协同架构的创新价值;
    2、掌握复杂运维场景的体系搭建逻辑,提升多智能体协作设计与实践能力;
    3、学习 DeepSeek 大模型优化策略与实践经验,获取可复用的行业解决方案。
    个人简介: 陈迪豪,目前担心顺丰科技 AI 技术平台负责人和 AIOps 项目算法负责人,负责顺丰集团 AI 和大模型基础架构功能,曾任第四范式平台架构师和 OpenMLDB 项目 PMC,以及在小米科技担任云深度学习平台架构师以及优思德云计算公司存储和容器团队负责人。活跃于分布式系统、机器学习相关的开源社区,也是 HBase、OpenStack、TensorFlow、TVM 等开源项目贡献者。
  • 李佳奇
     去哪儿旅行
    基础架构负责人 技术总监
    演讲主题:打造面向 AI 的基础技术团队
    议题简介:AI 大模型为企业增长带来新的机遇,对企业的技术团队也带来新的需求和挑战。去哪儿基础架构技术团队积极拥抱变化、对 AI 时代下技术基建、流程革新、组织建设等关键议题进行了深入的思考,并进行充分的实践探索,走出了一条打造有力支撑 AI 赋能业务、AI 赋能企业需求的技术基建和技术组织之路。本次分享会从技术基建、流程革新、组织建设三个核心方向解析企业落地 AI 的需求和应对方法,给出一条经过实践检验的落地方法,展示去哪儿旅行技术团队目前取得的一系列成果,并分享相关的经验和总结。
    演讲提纲:
    1、大模型时代 OTA 企业的内外需求和技术挑战;
    2、技术团队在技术基建、流程革新、组织建设的探索变革;
    3、当下 AI 落地成果和下一步展望。
    听众收益:
    1、了解企业在 AI 时代下的对外对内需求及技术团队面临的挑战;
    2、了解如何打造 AI 时代下有效支撑企业 AI 落地的技术团队及相关思考;
    3、了解互联网企业真实落地经验和案例及核心细节。
    个人简介:李佳奇,去哪儿旅行技术总监,基础架构负责人,技术中心 TC 委员、业务架构 SIG 负责人、负责基础架构部门,在公司推广 AI 智能体落地。10余年 OTA 一线研发经验,在高并发高可用系统建设、DDD 项目落地、业务域系统价值度量、线上系统防腐治理等领域有代表性作品。多次在QCon、QECon、SDCon、A2M、WOT、SACC、msup TOP100峰会等大会担任出品人和讲师,和 AZone 架构院、K+Talk、musp 等合作推出线上课程和直播。
  • 石雪峰
    京东零售
    研发效能专家
    演讲主题:效能思考“快与慢”——AI 时代全链路提效的机遇与挑战
    个人简介: 石雪峰,全领域研发效能专家,京东零售技术效能通道委员,开放原子开源基金会 TOC 成员,极客时间专栏《DevOps 实战笔记》主笔,多本畅销书《研发效能权威指南》、《Jenkins2 权威指南》、《高效能组织模式》的译著者。
  • 前京东 资深测试专家陈磊
    陈磊
    前京东 资深测试专家
    演讲主题:让每一个测试团队都能拥抱 LLM:一个通用的智能化测试实践方案
    个人简介:陈磊,阿里云 MVP,华为云 MVP,中国商业联合会互联网应用工作委员会智库专家,中关村智联软件服务业质量创新联盟软件测试标准化技术委员会委员,中移联合智库专家, Asian Journal of Physical Education & Computer Science in Sports 编委会委员、 EXIN DOM 。《接口测试方法论》、《持续测试》、《软件研发效能权威指南》《京东质量团队转型实践:从测试到测试开发的蜕变》、《软件研发行业创新实战案例解析》作者,在极客时间开设过专栏“接口测试入门课”,在拉勾教育开设过“软件测试第一课”,担任过《软件研发质量管理体系白皮书》、《测试敏捷化白皮书》编委。具有多年质量工程技术实践经验,精通研发效能提升、手工测试团队自动化测试转型实践、智能化测试等,公开发表学术论文近 30 篇,专利 20 余篇,并且是国内 TID 、 NCTS 、 MAD 、 MPD 、 TICA 、China DevOpsdays 、 QECon 等技术峰会的演讲嘉宾或出品人。
  • 阶跃星辰 SRE负责人王超
    王超
    阶跃星辰 SRE负责人
    演讲主题:专家解读《企业级 AIOps 实施建议白皮书V1.0》
    主题简介:
    由OSCAR联盟 和 高效运维社区联合牵头,联合BATJ华为等巨头AIOPS专家,结合互联网,银行,电信等行业AIOPS落地经验,得到产学研一致赞许的《企业级 AIOps 实施建议白皮书》已经发布到了1.0版本,白皮书中从场景,实施路径,关键技术,效果度量等多方面进行了细致的阐述,相信已经有非常多的企业通过学习白皮书,已经着手在公司里进行AIOPS的落地。希望通过本次演讲,将白皮书中补充的内容分享给大家,对白皮书中的重点内容"划重点",让更多的企业能够通过AIOPS的实践,降本增效,享受到AIOPS的技术红利。
    个人简介:
    京东金融资深技术架构师、应用架构部负责人,也曾负责人人网产品运维团队(PE)。经历了京东金融运维体系从0到N的过程,数次618和双十一大促的考验,目前主要关注DevOps,运维与架构的融合,业务可用性保障,智能运维,大数据运维,运维平台建设和团队管理。
  • 阿里巴巴云监控负责人徐彤(绍宽)
    徐彤(绍宽)
    阿里巴巴云监控负责人
    阿里巴巴云监控负责人
  • 董越
    《高质效交付》作者
    《DevOps实践指南(第二版)》译者
    前阿里巴巴 研发效能事业部架构师
    演讲主题: 工具设计的范式变迁:从CI/CD、平台工程到 AI4SE
    个人简介:董越,独立 DevOps 咨询师、《研发运营一体化(DevOps)能力成熟度模型》核心专家。曾任阿里巴巴集团研发效能事业部架构师、高级产品专家等职,从事Aone/云效 DevOps 产品设计、阿里云专有云集成与发布解决方案设计等工作。是多本技术畅销书作者与译者。著有《高质效交付:软件集成、测试与发布精进之道》、《软件交付通识》、《未雨绸缪:理解软件配置管理》等,译有《DevOps实践指南(第二版)》、《高效能团队模式:支持软件快速交付的组织架构》等。当前主要从事企业级 DevOps 体系建设的咨询工作,帮助华为、中信银行、中国移动等众多企业提升软件研发交付效能。
  • 大会议程

    GOPS2026深圳站部分日程-2.12-29人.xlsx_副本.jpg

    大会讲师(持续更新中)
  • 黄博文
    阿里巴巴
    持续交付技术专家
    演讲主题:面向 AI 的 DevOps 重构:从工具链到智能体的效能跃迁
    主题简介:传统DevOps领域发展多年,工具链齐全,效能提升进入深水区,边际效益递减。需求评审反复、代码返工率高,代码评审、测试用例、流水线维护占用大量人力,线上问题排查耗时耗力、风险高。仅靠工具自动化已经不够,需要 AI 驱动的‘决策自动化 + 认知自动化’,才能打破效能天花板。AI 浪潮带来的不只是一个“更聪明的插件”,而是一次从工具到智能体、从人工决策到智能决策的系统性重构。
    演讲提纲:
    1.为什么DevOps需要AI-效能瓶颈与新变量
    2.效能视角下的AI DevOps全景图
    3.AI需求管理:减少返工的第一道关口
    4.AI智能编码与评审:提升开发吞吐与质量的核心引擎
    5.mcp插件:串联本地编程+线上CI/CD的桥梁
    6.AI运维模型:助力衔接线上、线下,发布卡点与故障排查
    7.落地路径与实践建议
    8.总结: AI时代的DevOps角色与效能重构
    听众收益:
    1.理解从传统“工具链 DevOps”走向“智能体 DevOps”的整体演进路径,为什么只有引入 AI 才能突破当前研发效能天花板。
    2.系统掌握 AI 在需求、开发、测试、CI/CD、运维各环节的典型应用模式
    3.获得一套围绕 AI Agent 进行角色分工与协作模式重构的思路,帮助开发、测试、运维和架构师在同一张路线图上对齐改造目标和度量指标
    个人简介:黄博文,阿里云持续交付技术专家,架构师。多年开发老兵,在国内外多家企业做过技术教练及技术咨询,在DevOps技术及云端架构方面拥有丰富的经验。译作有《面向对象的思考过程》、《基础设施即代码》、《Docker实践》等。目前主要负责阿里云云效产品的架构和研发工作。曾多次在DevOps Days、Qconf等大会做过主题演讲,并参与信通院组织的《研发运营一体化能力成熟度模型》的评审工作。
  • 李也
     阿里巴巴
    智能可观测算法专家
    演讲主题:统一数据模型UModel及其在AIOps Agent上面的应用
    主题简介: 在大模型和Agent的时代中,如何用大模型Agent做智能运维受到了越来越多的关注。在搭建Agent之前,可观测数据的统一存储和统一建模是让Agent能感知到可观测数据的必要条件。可观测数据的统一模型UModel不光提供数据的统一存储和统一建模,还对Agent提供了世界地图。在本次演讲中,我们会分享如何用UModel快速搭建一个AIOps Agent。我们还会分享阿里云可观测从通用Agent到AIOps Agent的最佳实践。
    演讲提纲:
    1,为什么 AIOps 很容易停留在「炫酷 Demo」
    2,UModel:云原生应用架构的世界模型
    3,如何用Umodel 的接口快速搭建一个AIOps Agent
    4,从通用Agent到AIOps Agent,阿里云可观测的最佳实践
    听众收益:
    1,了解统一可观测数据模型UModel
    2,了解如何 UModel用于构建基于大模型的智能运维Agent
    3,了解如何通用Agent和智能运维Agent的异同,以及如何将通用Agent改造成智能运维Agent
    个人简介: 李也,阿里云智能可观测算法专家,香港中文大学计算机博士,在智能运维和数据驱动的决策方向有 10余年科研和落地经验。主导的异常检测和根因定位等 AIOps 算法在阿里云大规模落地。在 ASPLOS、SIGMOD、WWW、VLDB、TKDE、TON 等顶会顶刊发表过多篇 AIOps 算法论文,并在这些国际会议上做报告与分享。目前专注于大模型 Agent 及其强化学习在智能运维场景的落地。
  • 白潇
    蚂蚁集团
    技术专家
    演讲主题:基于MCPs/Skills/SPECs的AI风险智能体系演进路径
    主题简介: 蚂蚁集团的DeRisk 产品聚焦于技术风险 & 运维领域,将技术风险能力、数据、场景、经验沉淀于AI原生的风险智能解决方案中,并将其广泛的嵌入日常用户使用的流程中。旨在为每个应用系统提供一个7*24H的AI系统数字管家(AI-SRE/AI-DBA/AI-QA),并能与真人专家进行协同,7*24H处理业务问题,形成7*24H得深度护航与防护网。
    在产品落地过程中,DeRisk充分吸收AI-Native产品的设计理念并结合技术风险领域背景,依托于自身agentic loop/multi-agent的演进,在工具引擎/知识引擎的基础上,逐步形成从基础设施到领域经验到应用特征的协同新范式,提出基于MCPs/Skills/SPECs的新一代智能防控网络。
    演讲提纲:
    1. 大模型时代运维领域的智能化演进概要
    2. DeRisk,蚂蚁AI原生的风险智能探索与实践
    3. 基于MCPs/Skills/SPECs的新一代智能防控网络
    4. 当前面临的一些问题与挑战
    5. QA
    听众收益:
    1、对AI Native技术关注者和DevOps从业者而言,深度了解技术风险智能化建设的方案与技术,启发如何构建适合业务发展的技术风险智能体、加快AIOps在LLM时代的落地。
    2、结合大模型的技术风险智能化,不仅是在当下的风险技术栈上添加大模型的交互能力,需要以智能原生的理念进行全方位的重构,从架构设计、数据链路、应用实践等多角度实现技术的落地。我们提出基于MCPs/Skills/SPECs的新一代智能防控网络,提供可落地的前瞻思路 。
    个人简介: 白潇,蚂蚁集团技术专家,DeRisk AI原生的智能运维平台负责人。曾任职于华为、阿里,在高可用架构、故障应急产品化智能化等领域有丰富经验。2023年起主要负责DevOps和LLM交叉领域的探索和实践落地,通过运维大模型、SRE Agent等技术方案演进到DeRisk智能运维的平台落地,实现对SRE/DBA/质量等团队的赋能提效。从业十余年技术方向覆盖底层软件、互联网业务开发、技术风险高可用等多个方向,拥有2篇专利、软著若干。
  • 董越
    《高质效交付》作者
    《DevOps实践指南(第二版)》译者
    前阿里巴巴 研发效能事业部架构师
    演讲主题: AI 增强的持续交付:从自动化到智能化的演进路径
    听众收益:
    1、理解AI与持续交付融合的核心价值与最新行业趋势,建立从自动化到智能化的完整认知框架。
    2、了解AI增强持续交付的关键技术点。
    3、学习领先企业的实践案例,获得可参考的演进路径与落地策略,规避常见的实施陷阱。
    个人简介:董越,独立 DevOps 咨询师、《研发运营一体化(DevOps)能力成熟度模型》核心专家。曾任阿里巴巴集团研发效能事业部架构师、高级产品专家等职,从事Aone/云效 DevOps 产品设计、阿里云专有云集成与发布解决方案设计等工作。是多本技术畅销书作者与译者。著有《高质效交付:软件集成、测试与发布精进之道》、《软件交付通识》、《未雨绸缪:理解软件配置管理》等,译有《DevOps实践指南(第二版)》、《高效能团队模式:支持软件快速交付的组织架构》等。当前主要从事企业级 DevOps 体系建设的咨询工作,帮助华为、中信银行、中国移动等众多企业提升软件研发交付效能。
  • 黄俊
    某券商公司
    核心交易系统架构师
    演讲主题:从“可用”到“高效”:大模型驱动的全栈智能调优实践
    主题简介: 在金融行业全面信创的落地过程中,证券公司作为资本市场的核心枢纽,其核心交易系统的自主可控、高性能运行直接关系到金融市场的安全与稳定。不同于普通行业,证券交易系统对低时延、高可靠、高并发有着极致要求——毫秒级的性能差异都可能影响客户交易成交概率,系统稳定性更是容不得丝毫闪失。然而,在CPU、存储、交换机、网卡等底层关键硬件全面国产化替代的过程中,性能与稳定性的不确定性增加、调优职责真空等痛点问题日益凸显,传统研发协作模式已难以为继。
    大模型技术的崛起,为证券信创全栈调优带来了革命性机遇。通过融合RAG、模型微调、MCP等前沿AI技术,构建全流程闭环的智能调优体系,能够切实有效地缓解国产化替代进程中的性能差距问题,加速实现"稳、快、省"的核心目标。本次分享将结合我司核心交易系统全面信创实践,深入探讨大模型技术在全栈智能调优方案中的技术实现路径与落地价值。
    演讲提纲:
    1、全面国产替代的痛点与挑战
    2、大模型技术发展带来的新机遇
    3、全栈智能调优方案与创新点
    4、自主科技创新生态倡议
    听众收益:
    1、对全面国产替代中会遇到的软硬件难题有全面认知,包括但不限于计算、存储、网络、数据库、JDK、通用中间件等各领域产品功能与性能差距;
    2、对大模型前沿技术,例如RAG、模型微调、模型蒸馏等有一个整体认知,并对大模型技术本身出现的幻觉问题有直观示例认知;
    3、通过贝叶斯调优框架与大模型智能调优方案的对比,听众将了解当前系统调优领域的前沿技术与进展;
    4、通过解析核心系统信创智能调优设计思路与详细方案、评测数据,完整掌握关键实现方案并对预期效果有一个直观认识。
    个人简介: 本人先后就职于华为、招商基金,技术积累全栈,有多年敏稳业务的研发实施与团队管理经验,开放原子开源基金会openEuler社区AI联合工作组成员,连续三年(2022/2023/2024年)当选全球性云原生专业交流组织创原会年度云原生MVP、2023年度云原生最佳创作奖。现在某券商担任核心交易系统架构师,兼任公司DevOps效能教练与内训师。
    在证券核心交易领域耕耘多年,2025年完成基于大模型技术的智能调优平台初步方案设计与落地,已支持公司新一代核心交易系统7个子模块信创调优评测并部署上线,此成果在工信部主办的第四届“鼎信杯”大赛中荣获“金鼎实践奖”。2023年主导核心交易系统与国产集中式DB的软硬件联合调优方案,因优秀的性能数据与普适的技术推广适用性,先后获得了创原会2023年的第三届“云原生技术先锋实践”奖,以及CNBPA(云原生技术实践联盟)的“最佳云原生行业实践奖”、上交所优秀课题三等奖。
    喜欢做技术总结积淀与分享,相关CSDN技术博客(网名:江中散人)积累超10年,总计400+篇博文,技术领域涵盖云原生/云计算(包括容器/计算/存储/网络/PaaS中间件/数据库/微服务/DevOps/AI)、软件工程、移动端IOS/Android/Hybrid混合开发等领域。
  • 祁宏钢
    小鹏汽车
    云基础架构研发工程师
    演讲主题:从可观测到可行动:小鹏汽车智能运维平台的演进与实践
    主题简介:随着云原生与智能汽车技术的快速发展,传统运维模式在系统复杂性面前面临巨大挑战。本次分享将介绍小鹏汽车如何从“可观测”走向“可行动”的智能运维演进之路。我们将深入解析一体化可观测平台的构建,并重点分享AIOps驱动的智能告警与根因分析的落地实践,展示如何通过精准诊断将运维数据转化为有效行动。同时,也将介绍在云基础架构中探索AI Coding的初步经验,为构建更自动化、智能化的运维体系提供实践参考。
    演讲提纲:
    第一部分:引言:智能汽车时代的运维新挑战
    第二部分:基石:构建“可行动”的统一数据底盘
    第三部分:飞跃:AIOps驱动智能诊断,定义“可行动”
    第四部分:延伸:面向未来的行动力探索
    听众收益:
    1、借鉴小鹏汽车构建一体化可观测数据底盘与智能诊断平台的落地经验,掌握提升告警精准性与运维决策效率的关键设计思路。
    2、了解AI Coding在云基础架构与运维中的前沿探索,获取提升研发效能与实现运维自动化的具体实践思路。
    个人简介:专注于云原生可观测与智能运维(AIOps)领域。主导公司新一代可观测平台、智能告警与AIOps根因分析系统的研发落地,致力于通过智能化技术提升系统稳定性与故障定位效率。同时,积极探索并推动AI Coding工具链在云基础架构中的实践,以提升研运效能,驱动运维工作的数智化与自动化转型。
  • 王晨
    中国工程物理研究院计算机应用研究所
    智能运维平台架构师
    演讲主题:AI大模型驱动的科研内网数智运维方法论与实战
    主题简介:本次报告将分享在高安全保密科研内网中,构建“监-管-控-析”四位一体数智运维平台的方法论与实践。内容涵盖:构建全域统一的可观测中心,实现运行状态透明化;建立标准化的运维服务体系,推动流程规范化;研发适应复杂场景的自动化工具链,提升操作效能;并基于运维数据模型,实现分析智能化。最后,重点探讨如何引入大模型等AI能力,推动运维从“人工响应”向“智能自治”演进,为科研基础设施应用服务提供高可靠、自适应、可进化的运维支撑。
    演讲提纲:
    1)背景与发展历程;
    2)需求与挑战;
    3)“监-管-控-析”运维平台架构与实践效果;
    4)总结展望。
    听众收益:
    1、帮助听众了解高安全保密背景下的科研内网运维平台的建设方法论,形成在高约束条件下可行可复制的运维体系建设框架;
    2、共同探索大模型时代运维能力建设方向与落地场景,明确大模型与智能化技术在严肃场景中的落地边界与实践经验。
    个人简介: 中物院计算机应用研究所算力与网络中心PaaS团队带头人,智能运维平台架构师。长期深耕复杂系统可靠性工程与运维实战,在云原生系统、数据库、中间件、全域可观测性以及AIOps算法落地等领域拥有深厚积累。目前主导科研内网智能运维平台的规划与建设,致力于打造“云-边-端”一体化的自治运维能力体系,为重大科研任务提供高可靠、智能化的终端服务、应用系统、算力网络。
  •  蚂蚁集团 技术专家,架构师王龙
    王龙
     蚂蚁集团 技术专家,架构师
    演讲主题:蚂蚁智能立体观测,助力亿级用户的“碰一下”稳定性
    主题简介:
    摘要: 2024年6月,N业务(碰一下支付)开始启动,在很短的时间内经历了爆发式增长。2025年5月用户规模破亿,9月用户规模突破两亿,业务发展速度令人惊叹。伴随这一飞速成长的,是风险保障的复杂度级数式上升,设备数量从最初的百台千台快速攀升至数百万台以上,遍布全国各类区域环境的大小商户。 在N发展的关键期,业务迭代节奏非常快。如此高速的业务发展节奏,对稳定性保障体系提出了前所未有的挑战。“碰一下”不再是简单的设备应用,它已成为连接支付、商户、设备、用户等多场景的复杂生态,而这种复杂性随着业务的增长不断被放大。
    面对如此复杂的业务场景,我们原有的监控体系在三方面遭遇严重挑战:
    首先是人工监控铺设周期长。以一次新业务上线为例,从指标定义、场景拆分到监控配置、调参降噪,完整流程需要月级别,远远跟不上业务迭代的速度。
    其次是维度组合爆炸难题。在发展初期,监控从单设备告警开始,逐渐发展到发现单一设备维度上的异常;随着业务规模扩大,需要同时考虑机型、商户、区域、SaaS服务商、系统版本、软件版本、网络环境等10余个关键维度。这些维度组合后形成的空间规模达到数十万级别。
    第三,增长的告警噪音与有限的应急容量之间的矛盾。随着业务的发展,我们花费了大量的经历铺设监控以覆盖更多场景,更多的告警规则带来更多的告警,一线运维团队很快接近处理极限。继续增加告警势将难以得到有效处理;不增加告警,则会留下大量监控盲区,风险保障项目陷入两难困境。
    观念转变:
    面对这些挑战,我们深入反思当前监控模式的本质局限:告警需要先准确配置指标、维度、阈值,必须预先设想在哪个维度组合上可能存在异常,才能有效发现,形成“先画靶后射箭”的工作模式。
    那么,我们能否转变思路,做到“先射箭后画靶”呢?不要预先假设异常会在什么维度组合下发生,而是让系统自行去发现这些维度组合。即,先让系统自动感知细粒度的异常,然后通过算法挖掘异常发生的"靶心"在哪里。
    这便是立体观测体系的核心理念。
    演讲提纲:
    1.蚂蚁立体观测体系建设的背景
    a.业务背景
    b.传统监控能力遇到的挑战
    c.核心理念的转变
    2.蚂蚁立体观测体系3大核心能力
    a.蚂蚁立体观测整体架构
    b.千万级别的智能规则能力
    c.Ai 驱动的多维数据融合与智能洞察
    d.AModel实体建模:统一数据认知
    3.蚂蚁立体观测产品效果
    a.整体效果
    b.产品功能介绍
    4.规划&展望
    听众收益:
    1.了解蚂蚁可观测在智能化领域的最新进展,以及蚂蚁在“监控发现”到“智能洞察”的方向的能力是如何演进及落地的。
    2.共同探索可观测领域智能化的发展方向,以及如何结合实体等标准化的数据进行建模,打破数据孤岛,为智能分析定位提供统一数据底座
    个人简介: 目前就职于蚂蚁可观测团队,深耕告警系统、AIOps、多维数据融合以及根因分析,负责蚂蚁集团核心监控平台Aiops以及告警系统的技术演进。设计并落地蚂蚁智能立体观测系统,通过 AI 驱动维度挖掘以及多维关联分析,支撑百万级设备实时监控。
  • 张鸿斌
    军事科学院
    某中心网信运维专家
    演讲主题:数据中心智能运维助力全栈节能系统工程
    主题简介: 新一轮人工智能的繁荣推动算力系统的功率密度不断攀升,基于传统化石能源的电力资源日趋紧张。随着基础设施节能空间的日渐枯竭,越来多的学者认识到,数据中心节能不仅只是占比30%的基础设施的责任,应是包含占比70%的IT层在内的全技术栈的任务,更是打破技术壁垒实现协同创新和系统重构的机会。全栈节能数据中心成为融合信息技术、基础设施和能源电力在内的综合性复杂系统工程。为了顺应行业发展趋势,推进数据中心节能低碳走向深入,本报告将结合数据中心的技术栈架构,阐述全栈节能的理念、关键技术以及领域应用,并对绿色低碳智算中心、特种数据中心的节能建设思路进行讨论,提出构建全栈节能数据中心的系统工程方法。
    演讲提纲:
    数据中心和全栈节能
    数据中心全栈节能系统工程
    数据中心智能运维和节能技术栈
    智能运维助力数据中心全栈节能
    特种数据中心节能
    听众收益:
    了解数据中心全栈节能理念和技术体系
    了解数据中心节能技术栈和跨栈节能技术
    了解如何通过系统工程方法设计全栈节能数据中心
    了解智能运维对数据中心全栈节能的作用
    了解特种数据中心的全栈节能设计思路
    个人简介: 军事科学院某中心高级工程师,清华大学计算机博士,研究方向为计算机体系结构、高性能计算、网络存储、高能效数据中心等,从事军用网络信息系统和数据中心规划、论证、建设、运维和管理等工作20余年,主导多项军队网络信息系统建设,获军事科学技术二等奖1项,三等奖4项,获得授权发明专利7项,发表论文50余篇。
  • 张立科
    中国移动通信集团有限公司数智事业部(九天公司|九天研究院)
    资深SRE专家
    演讲主题:基于多智能体的立体运维体系创新实践
    主题简介:敬请期待
    演讲提纲:
    1、破局:AI+运维的深水区挑战
    2、架构体系:构建“纵向穿透+横向闭环”的立体运维智能体矩阵
    3、实战:多智能体协同应用技术落地实践
    4、成效:核心应用场景规模化落地
    5、进化:从辅助执行到智慧运维大脑
    听众收益:
    1、了解多智能体协同在超大规模应用系统的落地应用方法论,贴近生产实践拆解全流程、多场景应用路径,获取可复用的可行性应用方案;
    2、共同探索企业运维数智化转型的发展方向,在保障系统高可用、高稳定、高安全等方面,提供可落地的前瞻思路。
    个人简介: 深耕运维15年,致力于系统稳定性保障体系建设和实践; 先后就职于央视新闻中心、中体骏彩、某头部消费金融等单位和企业,现任职中国移动数智事业部(九天公司|九天研究院),负责市场与服务支撑中心SRE运维体系建设和AI+运维相关工作; 运维大会金牌讲师,SRE体系建设创新实践入选24年云系统稳定安全运行典型案例。
  • 赵舜东
    高效运维社区核心成员
    GOPS 全球运维大会金牌讲师
    演讲主题:运维大模型开发平台建设实践
    主题简介:当大模型从技术热点走向企业落地,我们选择自研运维大模型开发平台。本次分享将完整复盘这一历程,涵盖从架构抉择到场景落地的关键实践:架构抉择:为何不用Dify而走自研之路?场景落地:如何让大模型真正“用”起来?经验与展望:我们学到了什么?本次分享聚焦于运维垂直领域的AI工程化实践,适合关注大模型落地、智能运维与平台研发的技术团队与管理决策者。
    个人简介:赵舜东,昵称“赵班长”,高效运维社区核心成员,GOPS 全球运维大会金牌讲师,阿里云 MVP,中国 SaltStack 用户组发起人;《 SaltStack 入门与实践》、《运维知识体系》和《缓存知识体系》作者;现任速云科技 CEO,专注于 DevOps 和自动化运维。
  • 张廷进
     腾讯
    IEG自研游戏SRE负责人
    演讲主题:AI Agent 重塑 SRE的腾讯游戏实践
    主题简介:本次分享将介绍腾讯游戏SRE团队的AI实践:基于三级服务目录体系,我们设定了「AI提效计算算法」,精准锁定高频、高耗时、高复杂度的SRE场景,让AI投入"有的放矢"。更关键的是,我们构建了「AI提效加速器」运转机制——统一AI提效计算规则消除团队分歧,每日排名加强竞争意识,每周分享传递最佳实践并提升AI复利水平,自驱增长。分享将深入剖析8个千万级DAU场景下的SRE Agent案例,覆盖质量、效率、成本三大维度,展示AI如何成为SRE的"数字同事",AI建设"全员共振"的组织进化路径。
    演讲提纲:
    Part 1:AI提效的「计算算法」——找到提效靶点
    1.1 三级服务目录建设:从「混沌」到「精准画像」
    1.2 AI收益计算模型
    基于trace自动化收益上报,使用虚增数字SRE员工数量综合衡量AI提效收益。
    1.3 「碳基→碳硅协同」思维转换
    承前启后的AI建设三阶段落地步骤
    1.4 「AI提效加速器」:如何做到全员共振、全员抢活
    •算法共识——统一度量语言
    • - 建立「AI提效度量公式」统一计算标准,消除团队间的度量分歧,避免主观评判
    •每日排名——激发良性竞争
    • - 「AI提效日榜」:大屏看板实时展示各团队当日AI工时、
    •总体提效比例——目标牵引
    • - 制定总体提效目标:
    • - 提效比例 = AI工时 / 团队总SRE投入人时
    • - 目标拆解到团队,团队拆解到个人,层层传导
    •每周分享——经验快速传播
    • - 「统一分享模板」:解决什么问题、三级目录、技术实现、收益
    • - 「AI提效周会」:团队轮流分享实战经验,每周至少8个案例
    • - 「形成最佳实践库」:沉淀可复用的Prompt、Agent实现、模型选型经验、skills经验、业务场景等
    •多举措组合形成「自增长加速器」,让AI落地速度倍增,百花齐放百家争鸣。
    Part 2:8大AI提效实战案例
    质量维度(3个案例)
    •案例1:AI驱动的变更风险预测
    •案例2:AI驱动的故障根因定位
    •案例3:AI驱动的智能巡检
    效率维度(3个案例)
    •案例4:AI驱动的监控仪表盘生成和变更效率提升
    •案例5:AI驱动的从告警到代码异常修复的效率提升
    •案例6:AI驱动的版本发布流程效率提升
    成本维度(2个案例)
    •案例7:AI驱动的CDN带宽异常AI分析
    •案例8:AI驱动的云资源用量AI诊断分析
    Part 3:AI提效数据总览与未来展望
    - Agent三级目录场景覆盖率、Agent规模、SRE虚增人力等数据分享
    - AI提效后SRE职能进一步拓宽,不断探索上移、下移、左移、右移的进化之路
    听众收益:
    1.获得一套可量化的「AI提效计算算法」,基于三级服务目录快速识别团队中的提效场景,避免AI建设的盲目投入
    2.掌握「AI提效加速器」组织运营方法论,学会如何通过算法共识、排名激励、经验分享构建自增长机制,让AI落地「全员共振、全员抢活」
    3.获取多个可直接复用的实战案例,涵盖质量、效率、成本三大维度,包含技术方案和落地数据,为团队智能SRE体系建设提供参考蓝本
    个人简介:腾讯IEG自研游戏SRE负责人,主导欢乐斗地主、和平精英等数十款头部游戏的技术运营体系建设。现专注于AI+SRE融合创新,主导构建千万级DAU场景下的智能SRE体系,推动团队AI提效。
  • 冯诗淳
    阿里巴巴
    容器服务技术专家
    演讲主题:基于智能体构建 Kubernetes AIOps 智能运维体系
    主题简介: AI Agent时代,Kubernetes仍然作为生产IT Infra系统的范式,作为Gartner亚太地区唯一连续三年入选“领导者”象限的产品,阿里巴巴容器服务团队通过结合已有沉淀的领域可观测体系、专家诊断经验,通过构建AI Agent的方式建设AIOps智能运维体系。本次分享介绍阿里巴巴容器服务通过AI助手构建的AIOps智能运维体系,典型智能运维覆盖的场景实践,以及并介绍如何通过开源项目赋能用户构建面向自身业务的 Infra SRE Agent。同时将分享在提升Agent在智能运维场景问题解决能力、领域适配性与行动可靠性方面的实践经验。
    演讲提纲:
    1.背景介绍 - 阿里巴巴容器服务的智能运维体系与需求场景
    2.能力体系介绍 - 覆盖运维场景Day0~2 - 阿里巴巴容器服务Kubernetes AIOps能力介绍与典型场景
    3.开源实践 – 如何构建用户面向用户自己业务的Infra SRE Agent
    听众收益:
    1. 面向如使用Kubernetes架构的Infra Team,如何构建面向自身业务的 Infra SRE 智能体,实现从诊断到自愈的运维闭环。
    2. 探讨如何通过提供能力更好的智能体Agent,以实现建设更全面的AIOps智能运维体系。
    3. 了解 Kubernetes 全生命周期(Day0~Day2)智能运维体系的设计范式、集成路径与能力评估方法,为团队 AIOps 落地提供可复用架构参考。
    个人简介: 阿里巴巴容器服务可观测负责人。负责阿里巴巴Kubernetes可观测体系、AIOps智能运维体系的建设。 阿里巴巴Prometheus服务产品作者、阿里巴巴容器服务AI助手等功能作者。 参与多个阿里巴巴可观测产品孵化和演进。 有多年大规模分布式系统、Kubernetes、可观测系统构建、观测体系建设经验。
  • 邹晟
    去哪儿网
    DevOps技术专家
    演讲主题:从定界到定位:指标血缘与智能体驱动的 AI 根因分析实践
    主题简介: 在复杂业务系统中,根因分析的最大难点并不在“是否有 AI”,而在于问题是否被准确地定界。随着系统规模扩大、调用链路加深以及第三方依赖增多,传统依赖规则和经验的根因分析体系逐渐失效:异常范围难以收敛,分析噪声不断放大,最终导致定位准确率下降、干扰率上升。
    本次分享将结合真实生产实践,系统介绍一套以 AI Agent 为核心决策层 的根因分析架构演进路径。从 指标血缘与 Trace 拓扑分析 切入,通过更高质量的指标关联与依赖建模,大幅提升问题定界的准确性;在此基础上,引入大模型推理增强根因定位阶段的可解释性;通过 RAG 构建“外挂记忆”,显著提升第三方故障与历史相似场景的识别能力;并结合 skills, MCP 等实现工具化能力扩展,最终完成统计学算法与 AI 推理的融合决策。
    演讲提纲:
    1.背景与挑战:传统根因分析为什么卡在“定界”阶段
    2.高质量定界:指标血缘结合 Trace 拓扑的问题收敛
    3.智能定位: AI 根因分析架构的四阶段演进
    4.落地效果:准确率提升 30% 的案例分享
    听众收益:
    1.了解从“问题定界”到“根因定位”的完整思路,理解指标血缘、Trace 与 AI 推理如何协同,减少误判和无效
    2.通过真实落地案例,学习如何在现有运维体系中引入 AI 根因分析能力,切实提升定位准确率和排障效率
    个人简介: 2017年加入去哪儿网,主要负责做稳定性治理体系的工具建设,包括根因分析、预案、 CI/CD 系统,一直在探索研发活动中 AI 结合的实践。
  • 吕洋
    腾讯
    前端开发专家
    演讲主题:可视化AI编程在大型项目下的挑战与解法
    主题简介:随着AI编程工具快速发展,业界主流采用Agent SDK+云端Sandbox架构,但存在网络延迟、成本高昂、安全合规等挑战。腾讯无极团队探索了全新技术路线:充分挖掘浏览器原生能力,打造完整的AI编程环境。在浏览器侧实现了TSX/Vue实时编译、虚拟文件系统、本地文件双向同步;可通过DOM直接定位Vue组件源码、捕获分析运行时错误、甚至AI模拟用户操作调试。构建响应从秒级降至毫秒级,代码完全本地化处理。
    同时无极建设了全链路平台能力: 源码版本管理;平台级别托管数据库和云函数服务;内置AI Agent对话组件、API集成、UI组件库等开箱即用能力;完善从开发到一键部署的全流程。开发者可专注业务逻辑,新手通过点击页面元素即可让AI精准修改代码。
    该方案已在腾讯内部20多个项目实践验证。本次分享将介绍技术实现细节及对"浏览器作为全栈AI开发平台"的思考,为AI编程工具选型提供参考。
    演讲提纲:
    1. AI编程架构的思考与选择
    1.1 云端沙箱方案的优势与局限
    1.2 为什么我们选择探索浏览器原生方案
    1.3 本地化前端 + 平台化后端的混合架构
    2. 浏览器能力边界的探索
    2.1 本地构建能力的实现
    o如何在浏览器中实现 TSX/Vue 编译
    o虚拟文件系统的设计考量
    o依赖管理的轻量化方案
    2.2 版本管理的浏览器实现
    o在浏览器中运行Git的技术方案
    o与GitHub/GitLab的远端同步机制
    o代码审查与协作流程的支持
    2.3 与本地环境的交互
    oFile System Access API 的应用实践
    o本地文件同步的技术细节
    o离线开发能力的实现思路
    3. 全栈能力的平台化支撑
    3.1 后端服务的开箱即用
    o托管数据库、数据源的设计与实现
    o云函数的集成方案
    oAPI网关与鉴权体系
    3.2 预置能力与资源
    oAI Agent对话能力的快速集成
    o常用第三方服务的封装
    oUI组件库与知识/技能库
    3.3 部署与运维的简化
    o一键部署流程的实现
    o版本管理与回滚机制
    o监控与日志服务
    4. AI与运行时结合的实践
    4.1 运行时信息的获取与利用
    oDOM到Vue源码的映射机制
    o错误信息的捕获与智能分析
    o网络请求的监控与优化建议
    4.2 AI辅助调试的探索
    o自动化操作模拟的实现
    o问题复现与定位的思路
    o全栈上下文的代码修改策略
    5. 面向不同用户群体的设计思考
    5.1 零基础用户:自然语言 + 示意图 + 预置知识库
    5.2 前端开发者:专注业务逻辑,屏蔽基础设施
    5.3 全栈开发者:灵活的扩展与自定义能力
    6. 实践经验与反思
    6.1 典型应用场景案例
    o营销活动页面:快速迭代与发布
    o管理后台系统:复杂交互与数据处理
    oAI应用开发:对话机器人与智能助手
    6.2 性能数据与用户反馈
    6.3 遇到的技术挑战与解决思路
    6.4 方案的局限性与未来规划
    听众收益:
    1.了解AI开发平台的完整技术栈设计思路
    2.掌握前端本地化与后端平台化的架构权衡
    3.理解如何为不同技术背景用户设计渐进式体验
    个人简介: 腾讯前端开发专家,腾讯无极智能开发平台技术负责人,腾讯低代码开源协同 OTeam PMC。在前端架构、全栈开发与工程化领域经验丰富。 近年来专注于 AI 与开发工具的深度融合,推动研发效能的持续提升。主导设计"多 Agent 智能开发系统",打通需求到产品的端到端自动化链路;完成"AI 生成页面平台"的架构设计与落地,显著降低复杂业务场景的开发门槛。同时在低代码开发平台、可视化引擎等方向有丰富的工程实践经验。
  • 黄金
     广州趣丸网络科技有限公司
    基础架构组负责人
    演讲主题:大模型时代:运维 Agent 的人机协同与进化实践
    主题简介: 随着大模型智能水平飞跃,运维领域正迎来一场深刻变革——从传统自动化,迈向拥有“感知-认知-决策-行动”能力的闭环智能时代。AI Agent 已能在诸多场景中辅助甚至替代人工执行任务,但它依然无法完全取代人的作用。未来的关键,在于构建人机紧密协同的机制:让AI通过自然沟通精准理解人的意图,转化为可靠任务,并灵活调用技能与工具执行落实。与此同时,AI还需从实际反馈中持续学习,形成数据驱动的进化闭环。
    本次演讲将以运维场景为切入,分享我们在Agent认知架构设计、人机协作机制构建、Agent数据闭环以及AI自学习演进等方面的探索与实践。内容涵盖Agent落地核心指标、运维场景选型策略及具体实施经验,希望能为正在研发与应用AI Agent的技术同仁带来启发与参考。
    演讲提纲:
    一、大模型时代运维新范式
    1.大模型时代的智能运维
    2.LLM Agent在运维场景的基于
    3.运维场景对Agent的要求
    二、落地挑战与场景选择
    1.Agent在运维场景落地的挑战
    2.运维场景落地路径
    3.基础运维知识库构建方法
    三、趣丸运维Agent演进思路
    1.趣丸运维Agent1,0到2.0
    2.Agent2.0架构
    (1)上下文管理
    (2)人机协作
    (3)认知架构
    3.Agent核心指标与数据闭环
    四、迈向下一代Agent
    1.重塑运维协作
    2.面向SKILL与 SubAgent
    听众收益:
    1.了解 AI Agent 技术在运维场景应用落地的价值点
    2.明确AI Agent在运维领域的落地阶段、能力边界,以及从“辅助执行”到“闭环自治”的演进路径。
    3.了解 AI Agent 从环境感知、任务规划、决策闭环,以及基于反馈数据的模型能力迭代的全流程技术实现
    个人简介: 现任趣丸科技基础架构组负责人,负责多云基础设施建设和研发效能相关平台。10年工作经验,专注于多云基础设施和AIGC赋能项目。在容器技术、高可用系统架构设计以及人工智能领域积累了丰富的实践经验。积极参与开源贡献,多次在国内知名技术峰会上分享。目前正积极探索AIGC技术在研发流程中的创新赋能方式。
  • 林春
    太保科技有限公司
    数智研究院首席数据库专家  
    演讲主题:AI 赋能金融级 SQL 治理:从被动救火到主动免疫的全生命周期实践
    主题简介:金融核心系统数据库SQL 性能劣变、风险隐蔽性强等问题成为运维痛点。本次分享将拆解中国太保构建的多维智能 SQL 治理方案,揭秘如何通过全场景知识库、多维度量化模型、执行计划劣变识别等创新实践,实现 SQL 风险 “左移治理”,实现主动识别、提前排雷,为金融行业信创深水区的数据库稳定运行提供可复用的落地范式。
    听众收益:
    1、掌握金融级 SQL 治理的全生命周期方法论,获取高风险 SQL 识别、优化的可复用工具与规则体系;
    2、了解 OceanBase 数据库在核心系统的落地实践,学习如何通过技术创新化解国产数据库迁移伴生风险;
    3、借鉴 “左移治理” 长效机制搭建思路,实现从被动救火到主动免疫的运维模式升级,提升系统稳定性。
    个人简介:中国太平洋保险数智研究院首席数据库专家林春 负责全集团数据库信创规划、选型和全链路技术攻坚克难,支持核心和关键项目超过50个,成功带领全集团完成整体信创数据库转型,成功实施多个金融信创数据库咨询项目。第一本金融数据库信创转型专著《金融数据库转型实战:基于OceanBase》作者,获得电子工业出版社“2025优秀作者”奖项;参与编写《PostgreSQL考试认证指南》、《DBA实战手册:国产数据库选型、部署与运维优化》。OceanBase OCEC客户专家委员会专家委员;实现金融行业深度绑定Oracle特性、海量核心系统数据库国产化首次里程碑突破;自研国产数据库改造工作量预评估工具“指南针”,大幅提升应用改造效率,累计节省成本数千万;获得OceanBase OBCE、Oracle OCM、Postgresql PCM、MySQL OCP认证。
  • 李越
     携程
    AIOps 算法专家
    演讲主题:多 Agent 协同驱动的AI共建 AIOps 体系
    主题简介:本次分享为携程多 Agent 智能排障方案实践,聚焦多业态、多 BU 架构下 AIOps 落地的核心痛点,拆解跨部门数据打通、专家经验沉淀、智能体协同编排的全流程方案。围绕 “总控 Agent + 专业子 Agent” 架构,分享跨域数据标准化、运维知识沉淀、多 Agent 编排的关键工程实践。总结跨 BU 共建 AIOps 体系的组织协作、技术选型与工程化踩坑经验,为中大型企业 AIOps 落地提供可复用参考。
    演讲提纲:
    痛点与思路:多 BU 架构下 AIOps 建设挑战,及 AI 共建模式的顶层设计
    体系架构:跨 BU AI 共建 AIOps 整体框架与多 Agent 协同排障核心设计
    关键实践:数据标准化、知识沉淀、Agent 能力编排与工程化落地
    案例与效果:典型故障多 Agent 协同处置全流程及实测指标
    踩坑总结与演进:共建协作、Agent 边界、后续优化方向
    听众收益:
    1,了解企业跨 BU 共建 AIOps 体系的组织协作与技术落地方法论,获取数据打通、经验沉淀的可复用实施路径。
    2,学习多 Agent 协同智能排障的架构设计与能力编排方案,了解从异常发现到根因定位的全链路技术实现细节。
    个人简介: 携程AIOPS算法专家,深耕智能运维领域多年,专注于时序预测、异常检测、根因定位与AI智能体工程化落地。
  • 贺安辉
    博睿数据
    产品中心总监
    演讲主题:智能体协同矩阵:重塑下一代故障智能诊断范式
    主题简介: 在系统架构日益复杂与故障场景高度不确定的双重挑战下,传统运维体系已触及效能天花板。我们提出并实践了“智能体协同矩阵”这一创新架构,融合三类异构智能体:具备自主推理链的LLM诊断体、基于确定性规则的工作流引擎、以及能动态分解任务的知识规划体。该矩阵不仅支持智能体间的并行诊断与竞争研判,更实现了子智能体网络的深度协作,构建了从证据采集、多源分析到综合决策的完整认知闭环。系统已在多个核心业务场景实现规模化应用,显著提升了故障诊断的准确性、缩短了平均研判时间,为构建具备弹性认知和持续进化能力的新一代智能运维体系提供了完整的架构范式和实践路径。
    演讲提纲:
    1. 范式升维:从响应到认知的智能运维演进
    传统诊断瓶颈:确定性规则与不确定场景的根本矛盾
    智能体协同矩阵:构建具备“认知弹性”的下一代诊断体系
    2. 架构深解:三类智能体的认知分工与协同进化
    认知型智能体:基于LLM的推理链构建与不确定性决策
    执行型智能体:确定性工作流引擎与人类经验的固化承载
    规划型智能体:动态知识图谱的任务分解与自适应路径规划
    协同矩阵:竞争、补偿、验证的多模态协同机制
    3. 价值释放:关键场景实践与系统性效能跃迁
    金融核心交易链路的诊断实战:从告警到根因的精准穿透
    效能指标体系:准确率、时效性、可解释性的三重突破
    4. 核心认知:智能体协同的边界、进化路径与运维组织转型启示
    听众收益:
    1. 掌握高阶范式:获取“智能体协同矩阵”这一行业前沿架构的系统性认知。
    2. 借鉴完整路径:获得从架构设计、关键技术到规模化落地的全链路实践图谱。
    3. 预见未来趋势:洞察智能运维从“工具辅助”到“认知协同”的演进方向与机遇。
    个人简介: 贺安辉,目前担任博睿数据产品中心负责人, 17年智能运维领域从业经历,曾供职于中国工商银行、蚂蚁集团等企业,对运维体系、技术、产品形态和方法论有丰富的经验。
  • 宋凯
    高效运维社区
    资深技术专家
    演讲主题:智能体的工程化之路:构建透明、可信的Agentic AI核心范式
    主题简介:随着Agentic AI从概念原型走向产业核心,其工程化落地面临系统复杂与行为不确定的双重挑战。本议题将深入探讨,如何通过可观测架构、可追溯决策与可审计流程的工程化设计,为自主智能体系统注入必要的透明度与可信度,从而破解规模化应用的核心瓶颈,推动智能体技术从实验性工具迈向可靠的生产力引擎。
    听众收益:
    1、理解Agentic AI工程化落地的核心挑战与破局思路。
    2、掌握构建透明、可信智能体系统的关键设计原则。
    3、获取在开发、运维中实践可信Agentic AI的可行路径。
    个人简介:宋凯,具有 DevOps 及相关领域14年工作经验,前五八到家 DevOps 平台负责人。在多个大型企业中作为 DevOps 教练,落地实施过DevOps 解决方案,其中包括农行、交行、中信银行、民生银行、浦发银行、浙江农商、上交所、中金所、海通证券、中泰证券、光大证券、国金证券、移动、电信、山东电力等,提供组织级、项目级 DevOps 咨询服务,DevOps 过程改进及方案的设计和落地,擅长 CICD 领域相关的数据链、工具链及 DevOps 平台流水线建设。具备 DevOps 领域专业技术认证培训资质如下:
    DevOps Enterprise Coach 国际认证
    中国新一代 IT 产业推进联盟 DevOps 专家
    DAOPS 基金会金牌讲师
    DOF 认证讲师
  • 吴义平
    科大讯飞
    AI工程院云平台研发总监
    演讲主题:从范式革新到效能跃升:科大讯飞评测Agent的应用落地实践
    主题简介:在大模型快速发展的背景下,效果评测面临一致性难对齐、评测效率低、机评结论采纳率低等行业难题。我们通过解构化五维评测范式,将评测需求按场景-分类-维度-要素点-指标逐层拆解,结合结构化评价体系、评委能力增强和模型偏好对抗,提升评测稳定性与人机一致率,实现评测过程高度仿真。采用“用例+维度”双驱并行调度引擎,结合弹性算力池动态分配,实现单轮评测最快10分钟内完成,且支持百万级评测集扩展。该方案已在星火大模型内容创作、内容风控、搜索、翻译等场景大规模应用,评测效率提升超8倍,人机一致率平均90%+,有效支撑业务快速迭代。
    演讲提纲:
    1、为什么大模型效果评测没有固定范式
    2、理想的评测体系概览
    3、智能体时代带来的技术挑战
    4、星评测系统关键设计
    5、星评测如何实现评测规模化应用
    6、收益分析及展望
    听众收益:
    1、稀缺实践:创新大模型评测范式,揭示从混沌到标准化的关键路径
    2、即插即用:提供可复用的场景化评测模板,支持全生命周期自定义,适配内容生成、文本翻译、Agent等主流场景;
    3、避坑指南:规避人人对齐难、评委模型主观偏差等常见坑点,减少评测团队试错成本。
    个人简介: 2014年加入讯飞,当前任AI工程院云平台研发总监,主管AICloud平台EP方向,深度参与了讯飞语音云日均PV从亿到千亿的演进,主导了星火(大模型)、AIUI(人机交互系统)、AIPaaS(一站式AI开发)、星辰MaaS(一站式模型训推)等平台的AI云原生基础设施、中间件、微服务架构、DevOps、大模型评测系统研发与落地,擅长大规模生产级AI推理工程云化架构、云原生基础架构、SRE可靠性工程、大模型评测,在AI/人机交互/模型微调平台化以及大语言模型评测领域有丰富的实践经验。
  • 梁健聪
    货拉拉
    大数据智能运维负责人
    演讲主题:货拉拉大数据智能运维 AI Agent 探索实践
    主题简介:货拉拉大数据智能运维体系1.0以自动化底座为核心,通过平台化能力实现批量任务执行、自动化发布、资产管理等功能,有效降低人工重复操作、变更遗漏及误操作带来的风险。然而,仅依靠自动化仍难覆盖复杂多变的运维场景,例如告警噪声高、根因定位难、成本波动难以及时识别等,使得人效提升空间受限。随着大模型时代的到来,大数据运维体系迎来新一轮演进--智能运维2.0。通过引入大模型能力、AI Agent等能力,可实现从“自动化执行”向“智能化决策”迈进,构建新一代更高效、更敏捷、更可靠的大数据智能运维体系。
    演讲提纲:
    •货拉拉大数据运维1.0:自动化带来的价值与无法覆盖的复杂场景
    •AI Agent落地实践:根因诊断、故障自愈,人效提升80%
    •未来演进规划
    听众收益:
    •了解货拉拉大数据运维体系从自动化到智能化的演进路线
    •了解AI Agent在运维场景关键作用与应用方式
    •了解构建智能运维体系的思路,为提升平台稳定性和运维效率提供参考。
    个人简介:梁健聪,现任货拉拉高级SRE工程师,专注于大数据稳定性建设及自动化、智能化运维实践,具有丰富的大数据运维体系优化与故障治理经验。
  • 陈文潇
    华为 天才少年
    技术专家
    演讲主题:用AI管AI:智算万卡集群故障诊断的 Agent 实战
    主题简介:针对智算万卡集群日志量大、故障模式复杂的痛点,我们构建了异常日志压缩、RC上下文推理等一系列专业算法,还原故障传播路径并推导故障根因;在科大讯飞X1、黑龙江移动等局点的验证中准确率80%+,原先依赖专家定位数小时的疑难问题缩减至10分钟内自动诊断,大幅降低故障恢复时长,用AI管AI的运维理念获客户认可。
    演讲提纲:
    一、背景与挑战:痛点一:智算万卡集群日志量大;痛点二:故障模式复杂
    二、核心技术方案:
    2.1 专业算法体系:异常日志压缩算法,RC上下文推理算法,其他系列专业算法
    2.2 智能诊断能力:还原故障传播路径,推导故障根因
    三、实际应用效果
    3.1 验证局点:科大讯飞X1
    3.2 关键效果:准确率:80%+,诊断时效:数小时 → 10分钟内,效率提升:自动诊断替代专家定位
    3.3 实际CASE
    四、价值与成果
    大幅降低故障恢复时长;创新理念:"用AI管AI"的运维模式;获得客户高度认可
    听众收益:
    1.了解智算集群故障诊断的相关知识
    2.了解如何通过智能的方式,提高故障诊断效率
    3.了解到大模型搭建Agent的范式,可以泛化到其他领域
    个人简介:清华大学计算机博士,研究方向聚焦深度学习在AIOps中的创新与应用。入职后持续在AIOps领域深耕,将前沿AI技术引入ADN业务场景,解决故障领域痛点问题,主导智算故障Agent、北向智能体、智能北斗等多个智能体创新项目,RC上下文推理、API自动生成、服务流量还原等关键算法技术已落地商用。
  • 毕鸣一
     腾讯云
    RUM平台技术负责人,性能工程高级工程师
    演讲主题:Agent 驱动的全链路研发效能提升实践
    主题简介:在研发实践中,我们面临多重效能困境:需求开发阶段,工程师在重复的CRUD、配置管理等标准化工作上消耗大量时间;问题响应环节,故障定位需要在日志、监控、代码间反复切换;测试运维阶段,测试工具和可观测平台等系统各自孤立,信息无法流转;面对复杂问题时,从发现到修复可能耗时一整天,甚至引发回滚事故。这些痛点本质反映了两个核心矛盾:重复性工作占比过高,工程师创造力被消耗在机械性任务上;系统间信息孤岛严重,强烈依赖人工历史经验串联,随着AI Agent技术成熟,我们看到破局的可能性——通过Agent驱动的全链路协同,让AI从单点辅助进化为全流程参与者,在需求开发、问题响应、测试运维、自闭环治理等环节形成智能化协同,从根本上重构研发效能。
    演讲提纲:
    1.Agent进化:从Copilot到全链路协同
    2.需求开发:场景驱动的智能开发实践
    3.问题响应:知识库+推理定位根因方法
    4.测试运维:MCP打通测试与可观测体系
    5.DevOps自闭环的实践尝试
    听众收益:
    1、了解Agent智能体在多个DevOps环节的提效实践方法及效果
    2、了解Agent智能体与Rules、MCP的组合应用方法实践
    3、共同探索在DevOps自闭环方向,特别是复用历史经验、降低人力成本等方面,提供可落地的前瞻思路。
    个人简介:深耕性能工程平台建设领域多年,先后负责过手机QQ、QIM、TIM、腾讯会议等产品的性能稳定性专项及工具平台的研发工作,当前负责腾讯云多个(RUM、TMF、TCMPP)性能稳定性可观测产品的平台建设;先后参与过多个ToC、ToB和ToG的平台建设;进行过多次公有云、私有云、混合云的项目部署;落地过亚太、中东、北美、欧盟等多个国际化项目的交付实施。
  • 曾庆国
    阿里巴巴
    高级技术专家
    演讲主题:大规模推理时代的AI Infra可观测实践
    主题简介:随着生成式 AI 进入大规模应用阶段,AI 基础设施(AI Infra)正经历从“可用”向“高效、稳健”的范式转移。在大规模推理场景下,GPU 利用率的微小波动、RDMA 网络的瞬时拥塞,乃至模型算子在不同卡型上的性能偏移,都会直接影响最终的用户体验与运营成本。
    本演讲将深度揭秘阿里巴巴在支撑万亿参数模型大规模推理时的可观测实践。我们将探讨如何构建覆盖芯片级、计算节点级、网络级到模型应用层的全链路观测体系,分享如何通过 eBPF、高频采样与流式计算技术,解决 AI Infra全栈可观测的痛点。此外,重点探讨我们在 AIOps 方向的探索以及如何实现自动化的 AI Infra 稳定性守护Agent。为听众提供一套AI 驱动的 AI Infra 可观测标准方案。
    演讲提纲:
    1.大规模推理时代的观测新挑战
    2. 阿里巴巴全栈 AI 可观测架构实践
    3. AI Infra 的可观测建模(UModel)实践
    4. 走向自动化:AI Infra智能守护
    听众收益:
    获取行业标准: 了解一线云厂商在大规模 AI 推理场景下的可观测技术栈与指标体系。
    解决实战痛点: 构建覆盖芯片、计算节点、网络到模型应用层的全链路观测体系。
    技术前瞻: 学习 eBPF、AIOps 等新技术在基础设施层面的创新应用经验。
    个人简介:曾庆国(悦达),阿里巴巴 高级技术专家,KubeVela 社区 Maintainer。长期从事可观测、应用持续交付、基础设施管理等云原生领域,阿里巴巴Prometheus 服务负责人。ArchSummit、Gopher、SDCon、开源峰会等大会讲师。
  • 杨经纬
     百度
    Comate AI IDE负责人
    演讲主题:Coding Agent在大规模研发体系中的落地实践
    主题简介:在大模型能力快速演进的背景下,Coding Agent正从辅助工具走向研发基础设施。但在真实的大规模研发体系中,如何解决可控性、工程融合与规模化推广难题,仍是行业共同挑战。
    本次分享将结合 Comate等AI基础设施在公司内部的落地实践,系统介绍智能体驱动研发范式的架构设计思路,实现 AI 能力在研发场景中的稳定接入与高效调用。同时复盘规模化推广过程中的关键策略与踩坑经验,分享研发人员使用、显著提升智能体使用效果与研发效率的实践路径。
    演讲提纲:
    一、背景与挑战:在大规模企业中,规模化落地为什么难?
    在复杂的研发体系中,Coding Agent 的落地不仅面临代码可控性、工程上下文缺失与规范冲突等技术挑战,还需要解决组织信任、流程融合与规模化推广带来的系统性问题。
    二、如何构建研发工作台能力闭环
    通过深度接入工程上下文与规范体系,构建生成、预览、调试、修复到提交的完整闭环,使 AI 能力嵌入默认研发流程并具备可控、可回溯与可扩展特性。 三、规模化推广策略:如何实现全员落地
    以试点验证为起点,建立可量化采纳指标与快速反馈机制,推动多角色协同与工作流集成,逐步实现从自发使用到组织级默认集成的转变。
    四、数据结果与效果验证
    通过用户规模增长、采纳率变化与效率提升等核心指标持续验证价值,确保 Coding Agent 从创新工具转变为可衡量、可复用的生产力能力。
    五、踩坑与反思
    在实践过程中复盘模型依赖、性能稳定性、规范冲突与用户认知成本等问题,不断优化工程治理与智能体能力之间的平衡。
    六、下一阶段演进方向
    面向多 Agent 协同、智能测试与 DevOps 深度融合演进,推动 Coding Agent 从单点辅助走向完整研发智能体体系。
    听众收益:
    1、系统掌握 Coding Agent 在大规模研发体系中的落地方法论,理解其中的关键设计思路与实施路径;
    2、深入了解如何解决代码可控性、工程融合与规模化推广难题,获得可直接复用的架构设计与组织推进经验;
    3、通过真实规模化数据与踩坑复盘,认知Coding Agent提升研发效率的有效策略,明确企业推进智能研发的实践方向。
    个人简介: Comate AI IDE 负责人,百度工程效能部前端研发经理,负责 AI 原生研发工具链与智能研发工作台建设。
    主导推出 Comate AI IDE,完成智能体驱动研发范式的核心架构设计与工程化落地,构建覆盖预览、调试、规范驱动与多端协同的智能研发体系。半年内推动平台成为公司核心 Coding 基础设施,显著提升智能体采纳率与研发效率。
    长期聚焦软件研发智能化与 DevOps 体系建设,国家高质量专项《基于大模型技术的工业领域智能化开发工具项目》技术骨干。
  • 陈佳
    深圳腾讯科技有限公司
    端服务应用合规负责人
    演讲主题:Agentic Mobile:重塑端侧运维,构建自主进化的 SRE “最后一块拼图”
    主题简介:随着 Agentic 浪潮的兴起,服务端运维已率先实现自主闭环,但移动端仍是自动化的“洼地”。主题将聚焦 “Agentic Mobile” 这一全新运维范式——即赋予移动端运维“自主感知、自主规划、自主执行”的智能体能力。我们将深入剖析从传统运维到 Mobile Agent 到Agentic Mobile的演进路径,分享如何通过多模态感知与精准触控技术,解决大模型在复杂 UI 场景下的“落地难”与“成本高”问题。本议题旨在帮助企业打破传统边界,将移动端设备正式纳入 SRE 统一运维视野,提供一套系统性的方法论,彻底打通智能运维触达终端设备的“最后一公里”。
    演讲提纲:
    1破局引入:智能体时代的端侧运维新范式 - 从 Mobile Agent 到 Agentic Mobile
    2场景定义:那些传统运维无法触达的端侧场景(质量、合规与稳定性等)
    3方案全解:构建具备“思考力”的Agentic Mobile 端云一体化平台
    4技术拆解:打通“模型决策”到“端侧执行”的闭环
    4.1操控层:让大模型掌握手机操作系统的“语言”。
    4.2认知层:多模态视觉下的界面语义理解与动态适应。
    4.3精确层:从模糊指令到精准坐标点击的技术方案。
    4.4效能层:Token 精细化管理与 ROI(投入产出比)优化。
    5成效洞察:实战案例分享
    6趋势研判:多模态大模型驱动下的运维新思考

    听众收益:
    1.了解如何将移动端设备纳入 SRE 统一运维视野,突破传统框架限制,掌握打通运维触达终端设备“最后一公里”的系统性方法。
    2.深入拆解大模型驱动手机进行精确交互(各分辨率适配、复杂 UI 理解)的核心技术,获取一套可直接复用的Agentic Mobile 规划、感知、行动的架构方案,快速扩展企业自动化运维的能力边界。
    3.洞察多模态大模型在端侧自动化中的能力上限与强化策略,激发对“智能体+异构设备管理”的深度思考,为企业后续的 AI 落地提供前瞻性指引。
    个人简介: 腾讯 TDS 团队客户端开发专家,现全面负责 tds-Rightly 应用合规平台的规划、研发与运营。从 2022 年起,与团队共同完成合规检测与监控体系的「从 0 到 1」建设,打造覆盖代码、灰度到线上全链路的高质量检测、监控与防劣化机制,为 QQ、腾讯视频、腾讯新闻、QQ浏览器等数几十款千万级别用户产品持续输出稳定、高效的合规能力。在业务实践中,率先将生成式 AI 模型引入合规流程,深度融合「AI+自动化+云真机」技术栈,在权限合规、信息收集、系统能力调用等关键场景实现分钟级级回归与风险预警。此前,曾负责 QQ 启动性能、稳定性优化与模块化重构等核心基础架构工作,拥有多年客户端开发与测试经验,擅长以自动化与数据化手段解决业务基建和质量防劣化难题。
  • 才振功
     杭州谐云科技有限公司
    副总裁 / 浙江大学软件学院 副研究员、博士生导师
    演讲主题:多智能体协同的复杂微服务系统故障诊断与根因定位
    演讲提纲:
    复杂微服务系统包含大量相互连接的在线服务和应用,随着业务和环境的变化持续生长、动态适应,其服务质量、可用性保障以及可持续演化能力都面临巨大的挑战。本次报告聚焦微服务系统运行时故障诊断与根因定位技术,探讨日志、指标、轨迹、拓扑等多模态运维数据融合技术,实现对复杂微服务系统的深入理解和分析;分享基于多智能体协同的复杂系统故障诊断与根因定位方法,实现跨模态、跨层次的深度时空推理,提升故障预警、故障定位及故障诊断能力。
    听众收益:
    1.了解日志、轨迹、指标、拓扑等多维运维数据融合技术,实现具有泛化能力的运维技术;
    2.分享基于时序预测技术的微服务性能与故障预警技术,获取微服务故障预警能力;
    3.共同探讨基于多智能体的微服务根因定位关键技术,强化故障定位决策能力。
  • 韩光祖
    微博
    高级运维架构师 
    演讲主题:从传统 AIOps 到 LLM 驱动:微博智能运维体系的演进与落地践
    主题简介:在云原生与大规模分布式架构成为常态的背景下,传统依赖规则和单点算法的 AIOps 正面临复杂度与效率的双重挑战。本次分享将结合一线实践,梳理我们如何从传统 AIOps 出发,围绕指标、日志、告警、拓扑、变更和业务指标构建统一数据底座,在此基础上逐步引入大语言模型(LLM),探索“数据驱动”向“认知驱动”的升级路径。内容将重点介绍:1)传统 AIOps 与 LLM AIOps 在数据利用、算法范式和人机交互上的关键差异;2)如何利用 LLM 做日志语义理解、知识抽取和故障分析报告生成;3)在自愈、弹性伸缩、工作流编排等能力之上,构建有人在环的自动化闭环。希望为有志于落地智能运维体系的团队提供可复用的思路与踩坑经验。
    演讲提纲:
    一、传统 AIOps 能力建设现状
    1. 宏观背景
    - 云原生、微服务、多云/混合云带来的复杂度
    - 传统运维与传统 AIOps 的瓶颈:告警风暴、排障效率、经验依赖
    2. 数据与监控基础
    - 指标、日志、告警、变更、拓扑、业务指标等数据底座
    - 多源数据统一接入与 ETL、数据质量控制
    3. 传统 AIOps 核心能力
    - 异常检测、智能告警(降噪、聚合)、预测预警、根因分析
    - 自愈、弹性伸缩、工单自动化等执行能力
    4. 价值与局限
    - 在 微博 场景下带来的收益
    - 局限:对非结构化数据利用不足、对专家经验沉淀不充分、人机交互门槛高
    二、LLM 驱动的 AIOps:能力与差异
    1. LLM 与传统 AIOps 的核心区别
    - 数据利用:从结构化为主 → 充分利用日志原文、工单、文档、聊天记录
    - 智能范式:从“单点模型” → “通用大脑 + 多模型编排”
    - 人机交互:从大屏、规则面板 → 自然语言对话(ChatOps)
    2. LLM 在运维场景中的典型能力
    - 非结构化日志语义理解和关键信息提取
    - 面向知识库、工单、文档的检索增强问答(RAG)
    - 自动生成 RCA 报告、复盘文档、操作步骤建议
    - 自然语言 → 指标查询 / 拓扑查询 / 工单操作
    3. 对知识与经验沉淀的影响
    - 自动从历史工单、文档中抽取“故障–症状–根因–解决方案”
    - 反哺知识图谱与规则体系
    三、落地路径与实践经验
    1. 第一阶段:不改底座,先加“LLM 助理”
    - 利用现有监控+日志+AIOps 能力,引入 LLM 做:
    - 日志解读、问题解释、知识问答
    - 自动生成分析/复盘报告
    - 风险策略:只读不写、不直接操作生产
    2. 第二阶段:LLM 融合传统 AI 引擎,做“分析 + 决策建议”
    - 将异常检测、根因分析、预测引擎结果接入 LLM
    - 由 LLM 统一生成“结论 + 证据链 + 优先级 +推荐处理方案”
    - 人来做最后决策与执行确认
    3. 第三阶段:LLM + 工作流编排 + 自愈,形成“有人在环的半自动闭环”
    - 与现有自愈、弹性伸缩、工单系统、配置中心、流量调度联动
    - 低风险操作自动闭环,高风险操作强制人工审批(Human-in-the-loop)
    - 反馈与持续学习:
    - 对 LLM 输出的“有用/无用”反馈
    - 对策略效果(误报、漏报、MTTR)评估,驱动模型和策略迭代
    四、关键挑战与应对策略
    1. 技术挑战
    - LLM 的上下文、安全与幻觉问题
    - 与现有监控/工单/知识库系统的集成成本
    2. 组织与流程挑战
    - 运维团队对“AI 介入决策”的信任与接受度
    - 职责边界:AI 做建议、人做最终责任人
    3. 应对思路
    - 从低风险场景试点,小步快跑、持续迭代
    - 建立清晰的分级自动化策略和回滚机制
    - 打通数据闭环,持续量化效果(MTTD/MTTR/误报率等)
    五、总结与展望
    1. 核心观点回顾
    - 传统 AIOps 提供“数据 + 算法 + 自动化”底座
    - LLM 提供“理解 + 推理 + 对话”大脑
    - 二者结合,才能形成真正端到端、可演进的智能运维体系
    2. 对运维角色的变化
    - 从“救火工” → “系统设计者 + 自动化治理者”
    - 从体力劳动转向智力创造和业务价值对齐
    3. 未来展望
    - 更深的人机协同:LLM 参与架构评审、变更风险评估
    - AIOps 从“支持业务运行”走向“驱动业务创新”
    听众收益:
    1、了解智能体在故障管理中的落地方法论,拆解多场景应用路径,获取直接可复用的实施方案;
    2、共同探索企业故障管理的发展方向,在保障系统可用性、强化运维决策、降低人力成本等方面,提供可落地的前瞻思路 。
    个人简介:韩光祖,2017 年加入 微博 以来,长期聚焦于大规模互联网体系下的服务稳定性与智能运维实践,先后参与和负责过 微博 IM、Feed 流、超话、广告等多条核心业务链路的运维工作,经历并主导过多次全站级热点保障与服务演练,对超大规模、高并发场景下的稳定性体系建设、容量治理和复杂故障处置,有较为系统、端到端的一线实战经验。
    目前,我主要负责 微博 平台级运维体系的整体规划与演进,重点在于:
    围绕监控、日志、告警、拓扑、变更、业务指标等多源异构数据,构建统一的运维数据底座和观测体系;
    在既有 AIOps 能力之上,引入大语言模型(LLM),探索从“指标驱动”到“认知驱动”的智能运维范式升级,将经验沉淀为模型与知识图谱;
    通过自愈、弹性伸缩、工作流编排等自动化手段,打通从异常发现、根因分析、风险评估到执行闭环与反馈学习的全链路,实现有人在环的高可靠自动化运维。
    在本次大会中,也非常期待和大家一起深入交流:
    如何在真实复杂业务环境下,把传统 AIOps 与 LLM 能力做深度融合,而不是简单叠加概念;
    在类似 微博 这样的大规模平台场景中,如何用“数据 + 模型 + 自动化 + 组织协同”构建可持续演进、可度量价值的智能运维体系。
    也欢迎会后多多拍砖,一起把智能运维这件事往前再推一小步。
  • 孙文韬
     国信证券股份有限公司
    资深技术专家
    演讲主题:ChatOps进化论:从AI Agent到OpenClaw的智能对话运维实践
    主题简介:对话即生产力——ChatOps正迎来从“指令执行”到“自主决策”的范式跃迁。本分享聚焦大模型在对话式运维领域的落地路径,系统展示从智能运维机器人、AI Agent到自主执行体OpenClaw的技术图谱。
    重点剖析大模型如何重构ChatOps交互逻辑,赋予机器人理解模糊意图、多轮对话推理与跨系统执行的能力;并解读OpenClaw这一面向对话运维的智能体框架,如何实现从“人机对话”到“机器自主行动”的跨越。分享围绕四大运维场景展开:应急场景实现故障通报自动催办与审批流转;值班提醒场景智能排班与即时触达;定时提醒场景动态编排与对话确认;日程管理场景联动邮件、会议系统与待办清单,自动解析会议纪要强化日程。全面呈现智能对话运维在真实生产环境中的落地成果。
    演讲提纲:
    1、问题和技术背景
    2、ChatOps进化论:从AI Agent到OpenClaw的智能对话运维实践
    3、收益和展望
    听众收益:
    1、深度解析从“大模型”到“AI Agent”的能力封装逻辑,并揭示OpenClaw如何将AI Agent从原有的chatops的单点执行者升级为跨系统协同的“数字运维专家”。
    2、本分享面向运维工程师、SRE及AI技术决策者,提供从技术选型到场景落地的全视角参考,共同探索大模型时代的运维新基建。
    个人简介:孙文韬,国信证券资深技术专家,现担任运维AI提效、应急协同与ChatOps等领域技术负责人。10年金融及ToC平台架构和研发经验,曾就职于华为、蚂蚁集团、腾讯科技,负责金融支付、在线视频等高并发、高可用系统的研发与架构演进。
  • 冷恒杰
    百度在线网络技术有限公司
    资深SRE运维工程师
    演讲主题:AI驱动构建智能化风险预防体系
    主题简介:本次演讲内容侧重于介绍在生成式AI技术发展浪潮中SRE团队的挑战和机遇,以及如何运用生成式AI技术驱动数字化质量保障从规则式转向AI决策式,提升风险预防方向的整体效能;同时也会介绍当前AI技术在新一代数字化质量保障体系中的具体实践案例和效果;演讲内容将包含如下关键部分:
    1.生成式爆发带来的挑战:讲述生成式AI技术爆发式增长,在促进了业务团队提效同时,也加剧了系统的不确定性;
    2.规则式质量保障的短板:介绍当前基于工程规则的数字化保障的落地方式、效果和短板问题;如:系统复杂性的提升,人工方式无法及时支持增量的规则开发;工程规则的递增,带来更高规则维护成本,且新增风险依赖传统的人工处理方式无法及时跟进;
    3.规则式质量保障转向AI决策式质量保障:分别举例介绍,AI技术在风险识别、风险分析、风险定位和治理方向的落地思路和实践效果;
    4.智能体运维(Agentic Ops)的技术展望:由AI协同转向AI自主,打造运维智能体推动智能体运维是未来的发展趋势;如何做好面向智能体运维体系的SRE保障工作 (如算力资源运维、模型运维、Agent运维等不同层级视角),决定了AI技术和SRE体系未来融合的深度和效果;演讲最后,将根据当前已有的思考和探索提出部分技术方向的展望。
    演讲提纲:
    生成式AI技术和SRE运维
    基于规则的质量保障方式及短板问题
    AI技术的机遇 - 规则式保障转向AI决策式保障
    AI重构规则式风险识别
    AI提升风险分析精准度
    AI赋能风险定位和治理
    智能体运维(Agentic Ops)的技术展望
    听众收益:
    1. 风险预防体系从“工程规则”转向“AI推理决策”,借鉴百度SRE实践经验,了解如何基于AI-agent重构报警有效性识别、灰度发布能力识别等繁琐的静态规则,实现风险识别的灵活扩展,让风险预防目标更匹配用户的场景需求。
    2. 将AI能力应用于“风险度量”与“风险治理”中,从治理优先级优化到最终落地修复,结合运维规范知识体系,构建AI主导、人机协同的风险闭环流程,提升整体治理能效。
    个人简介:冷恒杰,目前就职于百度在线网络技术有限公司,是运维部资深SRE运维工程师,先后负责过:百度APP、信息流推荐、商业变现等多个关键业务的稳定性运维工作,目前是百度大商业稳定性负责人;当前聚焦在高可用架构、数字化&智能化运维实践创新等技术领域,致力于通过技术创新提升稳定性建设效能、驱动风险左移降低潜在故障损失;当前主导的数字化&智能化免疫体系,在百度内部已纳管近百个业务的预防、发现能力方向。
  • 合作伙伴
    铂金赞助
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    金牌赞助
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    媒体及社区合作
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    活动门票
    活动筹备中
    售票推广中
    活动结束
    选择票
    门票名称
    现在 - 2月28日(¥) 3月1日 - 3月31日(¥) 原价
    数量
    普通票
    3,360 3,780 4,200
    0
    1、本次大会双日门票,可以进出任何专场。
    2、不含票。
    标准票
    3,860 4,280 4,700
    0
    1、本次大会双日门票,可以进出任何专场
    2、含17-18两日的中午自助餐
    3、餐票妥善保管,丢失不补

    退票说明:不支持退票

    优惠或邀请码
    票价
    0
    活动主办方