This job is expired.

语音与音频理解方向研究员(大模型与多模态方向), Beijing

发表 2025-07-05
过期 2025-07-10
ID #2973289242
Free
语音与音频理解方向研究员(大模型与多模态方向), Beijing
China, 北京, 北京,
发表 July 5, 2025

描述

语音与音频理解方向研究员(大模型与多模态方向) 北京 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月24日
  • 渴望为世界带来新意的人,早已对描绘未来的“热词”不陌生——人工智能、机器学习、数据科学等等。腾讯始终在业界前沿不断探索,积极布局,并为优秀的你提供无限广阔的舞台。我们坚信科技的不断革新,最终能带来美好的、撼动人心的改变。
  • 岗位职责
  • 1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:;
    2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等;
    3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征;
    4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模;
    5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
  • 岗位要求
  • 1.计算机、电子工程、人工智能、语言学或相关领域博士,或硕士加多年相关工作经验;
    2.深入理解语音音频信号处理、声学建模、语言模型和大模型架构;
    3.熟练掌握 语音识别,语音合成,语音翻译等 一项多多项系统开发流程,具有多语言、多任务或端到端系统经验者优先;
    4.对以下方向具备深入研究或实践经验者优先:;
    5.语音表征预训练(如 Hu BERT, Wav2 Vec, Whisper 等);
    6.多模态对齐与跨模态建模(音视频和文本);
    7.有推动大模型在音频理解任务上达到 SOTA 性能的经验优先;
    8.熟练掌握 Py Torch、Tensor Flow等深度学习框架,有大规模训练与分布式系统经验者优先;
    9.熟练 Transformer 类模型及其在语音、多模态领域的训练和推理。
  • 职位详情

    工作类型: 全职
    合同类型: 永恒的
    薪酬类型: 每月
    职业: 语音与音频理解方向研究员(大模型与多模态方向)

    ⇐ 之前的工作

    下一份工作 ⇒     

    广告


     

    发送简历

      雇主信息

      Tencent

      快速搜索:

      地点

      输入城市或地区

      关键词


      广告