职位详情
五险一金
年终奖金
带薪年假
团队聚餐
子女福利
定期体检
年底双薪
职位介绍:
内部Kubernetes平台(IKP)团队遵循站点可靠性工程(SRE)模型,该角色将作为IKP的工程师工作,该平台基于GKE Kubernetes集群,以及管理捆绑服务,如Istio和Prometheus。SRE团队的成员应与L1支持、服务工程和iip核心团队密切合作。团队成员应该处理事件并解决问题,同时努力改进监控并构建自动化。
岗位职责
1.通过监控可用性和全面查看系统健康状况来运行iip集群
2.构建工具和自动化来管理平台基础设施和服务
3.提高集群和服务版本升级的可靠性、质量和时间
4.测量和优化系统性能和资源利用率,并计划未来的能力
5.构建仪表板和可视化图形系统运行状况
6.定义系统警报并在可能的情况下自动响应
7.为多个软件开发团队提供运营支持和工程设计
8.与高级团队成员合作,推动平台向前发展,与世行2027年目标保持一致
9.与使用iip托管平台的应用程序团队密切合作,但iip团队不负责部署在iip上的服务的应用程序开发。
日常及月度职责
1.收集和分析集群组件和服务的指标,以协助性能调优和故障发现
2.与核心工程和服务工程团队合作,通过严格的测试和发布程序来改进服务
3.参与系统设计咨询,平台管理,产能规划
4.通过自动化和提升创造可持续的系统和服务
5.平衡功能开发速度和可靠性与良好定义的服务水平目标
6.确认集群的运行状况,以帮助开发人员在部署新工作负载时遇到问题
7.积极主动地识别机会,在那里你和团队可以提供更好的客户服务,可靠性和可扩展性的IKP平台
技能要求
1.良好的口头和书面沟通能力
2.有团队精神
3.能够用一种或多种shell语言编写脚本,如Bash或PowerShell
4.能够使用一种或多种高级语言编程(结构化和面向对象),如Python或Go
5.Kubernetes经验,最好是GKE on-prem (Anthos)
6.具有分布式存储技术(如NFS, S3)和软件定义存储平台(如Portworx或AstraDS)的经验
7.具有容器注册表、映像扫描和映像签名经验
8.积极主动地发现问题、需要改进的地方和性能瓶颈
加分项:
1.高级Kubernetes认证(CKA或CKS - CKAD将被考虑)
2.具有VMware和其他虚拟化平台技术的经验
3.作为早期采用者与供应商合作的经验
4.具有在敏捷环境中工作的经验。
5.良好的中英文书面和口头沟通能力。