职位描述1.
参与滴滴机器学习训练框架、推理框架的设计与研发,服务于内部各个产品线;2.
参与机器学习分布式训练,多卡推理框架等底层组件的抽象与设计,包括训练框架优化,分布式网络优化等;3.
支持大模型在滴滴内部场景的业务落地任职要求1.
熟练掌握Linux环境下的C/C++与Python语言2.
熟练掌握至少一种机器学习框架(Tensorflow / Py Torch / Mx Net 或其他自研框架)并熟悉设计思路及工作原理;3.
有以下至少一项的背景知识与经验:cuda编程,NCCL,编译器,高性能网络,并行计算,集群调度;4.
熟悉Deep Speed、Megatron LM等分布式训练框架者优先;5.
有软硬件联合设计的经验,能使用数学工具分析深度学习训练中的优化算法优先;6.
有大模型训练推理调优经验优先;
Free
Ai框架研发专家 (j230901002), Beijing
China, 北京, 北京,
发表 October 2, 2024