logo
更新:2024-04-27
阿里云智能-运维稳定性架构师
4.5-7.5万
北京朝阳区  | 5-10年  | 本科  | 社招
已结束
职位详情
部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供技术解决方案和服务,具备超大业务规模以及最复杂的企业级云计算服务。
云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。
云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于:
1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系
2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛
3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单
4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进
5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障
岗位职责:
1、技术洞察和问题定义
•洞察领域发展方向,熟悉技术标准和前沿进展,跟踪关键竞对的技术和方法。
•结合产品现状提出待解决的问题,理解业务目标并分解到技术产品待解决问题中。
2、架构规划
•对所在领域业务进行架构抽象,建立整体业务领域模型。
•制定系统整体架构规划和技术路线图,确定系统目标和方向,综合考虑应用架构、数据架构、关键技术选型、部署架构等多方面因素,确保系统整体质量。
3、架构设计
•设计架构方案,包括系统组件、模块间的关系、接口、数据流和数据结构、基础设施等,保障系统的安全性、稳定性、易扩展、易维护和性能。
•把握业务全链路技术方案设计,确保技术可实现性、易用性,无重大风险。
•拆解工作,把复杂目标拆成一系列可以落到具体团队或个人的工作。
4、架构落地
•识别优先级、明确目标步骤和应急方案,保障架构实施落地和用户体验。
•梳理关键技术难点,指导开发团队进行突破和攻关,对开发过程进行监督和管理。
•负责部分核心代码编写,虚实结合,做好架构管理。
5、架构治理和演进
•制定架构的原则、规范与治理机制,并且落实到具体的项目研发中。
•负责架构管控,参与领域的重大架构决策,管控架构变更。
•识别不合理业务和架构设计,定期评估架构成熟度。
•基于业务需求和技术演进目标,指导开发团队对系统进行优化和扩展、解决技术债务,推动架构持续演进。
6、技术沉淀和赋能
•团队技术架构分享、技术文档和架构规范沉淀、学习引入新技术,赋能开发团队的技术成长,做好知识传承。
• 8年以上工作经验,至少6年大型分布式系统或云计算重要领域的运维架构及开发经验
• 能够梳理、设计大型系统的架构,通过治理、改进、重构等方式主动降低全局复杂度,具体体现在对于困难问题,能够提出并落地简单的易于维护的解决方案。
• 能够合理地对于 1-2 年的系统演进和技术选型做出决策,能够识别技术复用的机会,在项目中复用团队内外部的技术,或者产出能被其他团队复用的技术。
• 有站在公司角度上的全局意识(或)技术产生业务增值。
• 能够主导核心业务或技术系统的架构设计和实际编码,通过对代码的code review、设计评审、单测覆盖,确保功能的交付质量和鲁棒性,有较强的问题分析和问题解决能力,是关键问题终结者
• 在稳定性、资损、安全等方面能够系统性保障,并持续跟进进展,有效预判并防范风险
• 能识别产品现状问题,并分解为多个可管理的小问题,更好地指导技术团队工作。
• 能平衡各相关方诉求,平衡产品及架构的长、短期需要,推动关键领域问题解决。
• 产品线研发安全生产构建者
• 能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性
• 具有跨产品、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
• 在所负责团队层面严格遵循安全稳定演练体系,通过容灾演练、红蓝对抗、突袭演练等方式提前发现系统风险,基于稳定性演练持续培养技术团队的研发安全生产意识和专业能力
• 了解产品基本面,熟悉产品的全链路,能有效说明产品的本质。
• 熟悉技术领域相关的前沿信息渠道,并能在团队中进行技术分享。
• 熟悉竞对和对标产品的核心技术指标、优劣势对比,对我们如何追赶和保持优势有一定的理解。
• 通过内外部渠道理解客户诉求,并能结合自己的技术理解形成有价值的洞见。
• 8年以上工作经验,至少6年大型分布式系统或云计算重要领域的运维架构及开发经验
• 能够梳理、设计大型系统的架构,通过治理、改进、重构等方式主动降低全局复杂度,具体体现在对于困难问题,能够提出并落地简单的易于维护的解决方案。
• 能够合理地对于 1-2 年的系统演进和技术选型做出决策,能够识别技术复用的机会,在项目中复用团队内外部的技术,或者产出能被其他团队复用的技术。
• 有站在公司角度上的全局意识(或)技术产生业务增值。
• 能够主导核心业务或技术系统的架构设计和实际编码,通过对代码的code review、设计评审、单测覆盖,确保功能的交付质量和鲁棒性,有较强的问题分析和问题解决能力,是关键问题终结者
• 在稳定性、资损、安全等方面能够系统性保障,并持续跟进进展,有效预判并防范风险
• 能识别产品现状问题,并分解为多个可管理的小问题,更好地指导技术团队工作。
• 能平衡各相关方诉求,平衡产品及架构的长、短期需要,推动关键领域问题解决。
• 产品线研发安全生产构建者
• 能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性
• 具有跨产品、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
• 在所负责团队层面严格遵循安全稳定演练体系,通过容灾演练、红蓝对抗、突袭演练等方式提前发现系统风险,基于稳定性演练持续培养技术团队的研发安全生产意识和专业能力
• 了解产品基本面,熟悉产品的全链路,能有效说明产品的本质。
• 熟悉技术领域相关的前沿信息渠道,并能在团队中进行技术分享。
• 熟悉竞对和对标产品的核心技术指标、优劣势对比,对我们如何追赶和保持优势有一定的理解。
• 通过内外部渠道理解客户诉求,并能结合自己的技术理解形成有价值的洞见。

其他信息

行业要求:全部行业
工作地址
北京-朝阳区阿里中心
公司介绍
阿里云创立于2009年,是全球**的云计算及人工智能科技公司,为200多个国家和地区的企业、开发者和政府机构提供服务。阿里云致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。2017年1月阿里云成为奥运会全球指定云服务商。
若用人单位提供虚假招聘信息,以担保或其他任何名义收取财物,扣押或以保管为名索要证件,都属于违法行为,应当提高警惕。
发布于