岗位职责 负责AI基础设施建设工作,开展AI基础设施的高速网络架构设计,提升AI基础设施的高可用能力;主导AI基础设施的平台部署、容量规划、资源调度、升级扩容与优化;负责AI基础设施故障处理和应急,全链路定位性能瓶颈,处理生产环境AI基础设施故障,快速恢复系统运行;负责AI基础设施标准化策略制定,建立AI基础设施运维标准化流程,推动AI技术栈运维自动化、智能化工具开发,完善AI基础设施运维知识库建设;负责带领团队负责AI基础设施运维提升课题研究,探索AI基础设施领域新技术并应用到产品等。 应聘条件 计算机等相关专业本科及以上学历;3年及以上AI基础设施相关岗位工作经验;有AI基础设施的项目建设或运维团队管理经验者优先;熟悉混合算力管理、算力池化、云原生及大规模AI基础设施集群建设等关键技术;熟悉CPU、GPU、FPGA、ASIC等技术;熟悉主流云平台的的结构及技术特性、主流虚拟化技术、容器技术;具备架构设计、系统分析、调优和问题解决能力;具备Python或Shell脚本编程能力;具有良好的团队合作精神,责任心强,具备良好的问题解决能力和学习能力。