4月20日20:00-21:30,一场别开生面的技术大会—— “运维/Devops在线技术峰会”将在线举办。从网络基础架构实践和演进,到同城容灾架构剖析;从如何稳定、安全的使用云数据库,到企业如何在云上安全加固最佳实践;从阿里云专家理解的DevOps,到如何构建一个通用化的智能运维平台……不仅一一告诉你云上的运维重点在哪、运维人应该如何思考,也手把手教你如何做。同时,对于处于转型中的企业,我们也邀请了有代表性的互联网公司来分享他们的亲身体验。
阿里大数据SRE技术专家池枫说,他希望Tesla是一个创新、高效的自动化、智能化平台
池枫,阿里大数据SRE技术专家。2011年加入阿里巴巴大数据SRE团队,见证阿里大数据产品最快速的发展过程。先后负责阿里Hadoop、Hbase、Apsara、ODPS等产品运维, 全程负责大数据运维自动化体系建设。历时2年时间带领团队完成Tesla智能运维体系设计,开发,落地,进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。
在4月20日20:00举行的运维/Devops在线技术峰会上,池枫将会分享《如何构建一个通用化的智能运维平台(Tesla)——大数据SRE实践》议题。为此云栖社区采访了这位在大数据SRE浸淫多年的技术专家。
云栖社区:历时三年,你带领团队建设了Tesla智能运维体系,能聊聊什么是Tesla?为什么要建设它? 池枫:先回答为什么要建设Tesla,这个还要从2014说起,那个时期大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。如何破解,我们选择建设一个能够长期发展的自动化平台,这就是Tesla的由来。
什么是Tesla,我们希望它首先是一个创新、高效的自动化平台,还希望它是一个通过数据驱动由自动化向智能化转变的平台,借助Tesla体系的不断完善提升我们运维的价值。
云栖社区:Tesla开发过程中,有没有遇到什么困难,又是怎么解决的? 池枫:Tesla的建设过程对我们整个大数据SRE团队来说是一个非常巨大的机会和也是挑战。碰到的许多困难,最重要的一块就是团队内部产品研发的组织模式,换句话说我们对传统工具团队开发模式进行了优化,Tesla 分两部分的研发人员完成,一部分提供框架级别的服务开发,另一部分提供了业务逻辑实现的服务,我们摒弃了传统B2C模式,采用了C2C共享协作的开发模式共建我们的Tesla平台。这种方式使Tesla从无到有,从小到大,发展的速度大大加速,迭代的目标更加明确,质量控制更容易达成,也保证我们以现有的人力做到今天的规模的。
云栖社区:Tesla能解决哪些典型问题?哪些地方可能还需要继续完善? 池枫:Tesla 面向的场景都是最典型的的运维运营场景 ,我们产品几乎打通了所有关键的运维环节:例如应用环境管理 ,变更操作执行,需求智能处理,事件关联处理,故障分析诊断,运维数据挖掘。我们希望沉淀运维经验的决心非常坚决,因为我们认为这种沉淀好比是对运维的格式化存储,只有格式化的数据将来才能被机器所学习和挖掘,积累这样的数据的能力是智能化的关键。
所有我们正在建设的产品都仍然有很大的进步空间,尤其是与智能化相关的如:问题的分析、故障的预测、行动的决策,对我们来说仍然处在探索关键期,能够给与我们借鉴和帮助实践特别少,所以这块今年我们集中了团队中最优秀人员去整合我们运维、运营数据,期待在这块有突破性的成果。
池枫:Tesla目前服务所有的阿里大数据产品研发团队和运维团队。产品线覆盖ODPS ,HBase ,ADS,Galaxy,tt,datahub等集团核心的大数据产品,覆盖上十万级业务服务器规模,运营站点PV 5000+p/日,平台自动化事件:近百次/日,自动化时间近万分钟/日(此处的近万分钟是指单人顺序执行需要的耗时),是整个部门的运维工作的根基。
池枫:关于Tesla未来发展方向 ,近1年的思考中已经非常明确:就是成为更+的智能化。
我们不仅希望在Tesla上运维事务丝滑平顺,而且希望自然人对整个业务产品线的决策影响越来越少,所有的服务运行,更依赖于对格式化数据的分析驱动。具体到落地详细的计划,我们会分两个方向齐头并进,分别为“内和外”,对内我们强调数据仓库的完善,运维模型训练,借助内部海量的数据资源完成我们智慧化演进。对外 我们会借助大数据专有云项目的推进Tesla在私有云场景 的企业化支持能力,并且我们会在2017年完成Tesla核心子产品集成版本的开源目标,希望能推动运维智能化做一份贡献。
云栖社区:你认为一个完善的大数据运维自动化体系应该具备哪些特征?其工作中的重点、难点是什么? 池枫:“完善”的定义各有所见 ,我理解一个体系必须发源于其服务的业务产品,能够灵活适应“变”和快速的实现“通”。抽象不同产品中各种运维环节,具备层次化服务产品结构,能够连接 资源、事件,人各个维度的产品体系。
如何设计一个能够兼顾多种异构的大数据产品的运维平台体系是首先要解决的重点,另一个是人的因素,传统Ops需要转型,Ops+Dev+Data 人才的聚集是完成智能化运维的充要条件。
想和阿里大数据SRE专家池枫面对面技术交流?快拿起微信扫码吧!
- 大数据SRE 运维产品的发展变迁;
- 智能运维产品体系理念;
- 分享核心套件的设计思路,使用场景及案例展示;
- 对自动运维生态的生态的展望。
- 复杂运维事务自动化沉淀方案。
- 智能运维模式的实践案例。