分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月24日2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等;
3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征;
4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模;
5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构;
3.熟练掌握 语音识别,语音合成,语音翻译等 一项多多项系统开发流程,具有多语言、多任务或端到端系统经验者优先;
4.对以下方向具备深入研究或实践经验者优先:;
5.语音表征预训练(如 Hu BERT, Wav2 Vec, Whisper 等);
6.多模态对齐与跨模态建模(音视频和文本);
7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先;
8.熟练掌握 Py Torch、Tensor Flow等深度学习框架,有大规模训练与分布式系统经验者优先;
9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。