创新3D虚拟人交互方案受认可,Soul App多模驱动研究论文入选ICCGV 2025

  近日,2025年第八届计算机图形和虚拟国际会议(ICCGV 2025公布论文收录结果,社交平台Soul App研究成果《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》(LLM Gesticulator:利用大语言模型实现可扩展且可控的协同手势合成入选。


  计算机图形和虚拟国际会议聚焦计算机图形学与虚拟现实技术。在人工智能技术实现突破式发展,推动虚拟现实方向进入新阶段的当下,大会关注虚拟现实环境/增强现实/混合现实、人机交互和高级交互等领域,计算机图形学与虚拟现实技术的最新科研成果和产业发展对人类认知世界、交互体验的深刻影响,也吸引了全球顶尖学者、行业精英及创新先锋,共同探讨技术的进步,携手助力产学研联动。

  Soul论文核心亮点为在行业内首次提出使用大模型作为基底模型实现虚拟人的多模态驱动,并实现了各项指标超过之前的最佳方案。此次论文入选,也意味着作为致力于以技术和产品模式创新提升年轻一代交互体验的社交平台,Soul的底层技术能力建设和探索方向得到了行业和学界的认可。

  事实上,坚持以技术驱动创新,Soul自2016年上线后便注重AI、虚拟人、虚拟与现实融合等方向的技术能力建设。

  特别是为了降低用户社交压力,Soul不支持用户上传真实头像,年轻人通过平台提供的捏脸系统,自主创造个性化虚拟形象。

  此前,Soul集成AI、渲染和图像处理等技术,推出了自研的NAWA引擎,为用户创建个性化的3D社交形象和场景提供技术支持。2020年,Soul正式启动对AIGC的技术研发工作,系统推进在智能对话、语音技术、3D虚拟人等AIGC关键技术能力研发工作,并推动AI能力在社交场景的快速落地。

  目前,Soul已先后上线了自研语言大模型Soul X,以及语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力。2024年,Soul AI大模型能力整体升级为多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性,真正实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。

  沿着多模态融合的方向,Soul团队希望能够集成3D虚拟人能力创新多模态AI交互方案,为用户提供更加沉浸、自然、流畅、智能的互动体验。相关负责人表示,“3D虚拟人是多模态中的重要组成部分和效果的丰富化呈现,社交则是3D虚拟人落地的最佳自然场景之一,Soul自身具备完整的多模态团队、3D虚拟人/AI能力积累和深耕社交场景的洞察,团队有机会在此领域形成创新方案和竞争壁垒。”


  《LLM Gesticulator: Leveraging Large Language Models for Scalable and Controllable Co-Speech Gesture Synthesis》一文中汇聚了Soul在此方向的最新研究成果,展现了3D虚拟形象、肢体动作、文字、语言、视觉等多维度真正多模态融合实现的可能性。

  首先,团队首次提出使用大语言模型作为基座模型实现3D虚拟人的多模态驱动方案,其展现出了极高的可控性和可拓展性,并且实验表明该模型在动画质量、动画相关性、节奏匹配度和文本匹配度等多个指标上都超过了以往方案。


  此外,过往行业方案中大多只支持单一模态的驱动,Soul团队对模型进行了特殊设计,使得模型可以同时支持文本 音频的输入,并能够生成和音频节奏和文本语意都符合的动画数据。

  最后,团队还探索了一种基于视觉大模型的自动化数据标注范式,提供了新的数据标注思路。

  高度重视技术能力建设,2024年Soul多个技术研究成果获得学界和行业肯定。8月,平台研究成果《Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout》(基于视觉语言提示与模态暂退的多模态情感识别,入选ACM国际多媒体会议(ACM MM 2024上组织的多模态与可靠性情感计算研讨会MRAC 24(Multimodal, Generative and Responsible Affective Computing 2024,该论文重点介绍了Soul团队为提高情绪识别的准确性和泛化性能,提出的多模态情绪识别方法。

  夯实技术基建的同时,Soul始终强调推动AI能力在社交场景的快速落地,目前Soul大模型能力和创新互动方案已在智能对话机器人“AI苟蛋”、狼人杀Agent、数字分身和最新的AI虚拟人智能陪伴功能等场景应用。

  在今年10月举办的全球三大IT展之一—— GITEX GLOBAL海湾信息技术博览会上,Soul携集成3D虚拟人能力的多模态AI交互方案亮相,在活动现场,观众可以通过数字装置即时生成3D虚拟数字分身,通过实时动作捕捉与还原,体验自然、流畅、沉浸式的多模态互动。

  接下来,Soul集合了3D虚拟人的多模态交互能力将陆续在站内虚拟陪伴、群聊派对、游戏等多个场景落地,让用户通过创新技术的应用在社交中充分展现自身鲜明的个性,精准传递情绪温度,在各种虚实融合的场景中与他人自在交流、互动,感受全新的互动体验。

张紫祎本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 support1012@126.com 举报,一经查实,本站将立刻删除。
标签: /
上一篇2024-12-23
下一篇 2024-12-23

相关推荐

  • 灰度迷你比特币信托自推出以来净流入超10亿美元

    灰度宣布旗下迷你比特币信托(BTC)2024 年净流入超过 10 亿美元。截至 12 月 17 日,该 ETF 资管规模超过 40 亿美元。 7 月份,灰度从其较旧的 BTC 和 ETH 基金中分拆出

    2024-12-23 18:03:14
    2022
  • 去年以工代赈吸纳就业总数同比增长31%

    2024年,国家发展改革委支持各地围绕农村小微型基础设施实施2726个以工代赈项目,吸纳36万名农村脱贫人口等低收入群众务工。各地围绕交通水利、农业农村、生态建设、

    2024-12-23 18:03:14
    2002
  • 2025年春风行动已举办4.1万场招聘活动

    人力资源社会保障部今天(3月13日)发布数据,截至3月5日,全国已累计举办各类招聘活动4.1万场,发布岗位3100万个;发出务工人员专车、专列、包机2.9万辆(列、架)次,输送劳

    2024-12-23 18:03:14
    2001
  • 落实增储任务、加强精益管理 中央储备粮安全保障能力增强

    增加小麦、玉米等品种收储规模,跨地区平衡、跨周期调节能力和应急保供水平进一步提升。不断加强储粮精益化管理,中央战略储备粮综合储存损耗率持续控制在1%以内。

    2024-12-23 18:03:14
    2001
  • 被动投资“大时代”来临!

    有公募人士认为,ETF大发展因素较为复杂,核心原因是曾经追捧主动权益明星基金经理的基民,大家的投资体验都不太好,进而也对主动权益的超额创造能力产生了一些质疑,因此

    2024-12-23 18:03:14
    2001
  • 证监会:权益类ETF规模突破3万亿元大关

    证监会19日发布的公告称,今年9月,证监会会同中央金融办出台了推动中长期资金入市的指导意见,着力打通社保、保险、理财等资金入市的堵点痛点,建设培育鼓励长期投资的

    2024-12-23 18:03:14
    2001
  • 宝莱特:前10个月已回购297.06万股股份 耗资2000万元

    针对产品研发和新业务布局,宝莱特还表示,2023 年,公司推出了S系列输注液 泵、电子尿量计量仪、遥测监护系统等全新系列产品,目前公司紧密推进G系列监护仪、CRRT、AED

    2024-12-23 18:03:14
    2001
  • 今年前10月新疆霍尔果斯口岸进出口货运量超3800万吨

    视频无法播放,请升级浏览器至最新版。 据霍尔果斯海关统计,霍尔果斯口岸今年前10月进出口货运量达3801.1万吨,同比增加10%。 从商品种类来看,进口商品主要为机电产品

    2024-12-23 18:03:14
    2001