阿里云披露大模型最新进展：“通义听悟”攻向音视频赛道_全球热推荐

(资料图)

作为大模型最为活跃的领域，自然语言处理成为众多科技公司在研发上的主攻方向，阿里也不例外。

6月1日，阿里云对外披露通义大模型最新进展，瞄向AI音视频赛道推出“通义听悟”，并且正式开启公测。这距离“通义千问”的发布还不到两个月的时间。

根据会议现场工作人员的演示，通义听悟可以实时完成对音视频内容的转写、检索、摘要和整理，利用大模型的能力自动做笔记、整理访谈、提取PPT等。阿里云CTO周靖人表示，通义听悟能够实时记录、多语言翻译、发言总结、问题回顾，视频体验方面，支持云盘导入和本地上传、章节速览、全文概要等。

听悟技术负责人鄢志杰则对记者表示，通义听悟的前身是阿里云内部一个名为“听悟”的产品，主要为投资部、HR等部门做项目会议的音频转写功能，在2022年，这款产品的潜力逐步被挖掘，内部开始思考其工具属性是不是要发生变化。

“工具是什么？受人支配，它不会比人更聪明，也不会比人懂得更多。但是工具在与通义天问大模型能力相结合以后，这种工具能力就变成了助手能力，能够帮人解决一些问题。”鄢志杰表示，在多模态的布局下，阿里云就这样将听悟形成了产品。

但和其他生成式人工智能应用一样，如何保护数据隐私也是通义听悟需要向个人用户以及企业合作方解答的首要问题。一方面，人工智能公司需要大量的数据来训练更聪明智能的大模型，另一方面，随着越来越多用户将人工智能应用纳入工作流，上传的数据中难免会夹带公司机密信息。

周靖人对记者表示，目前企业的需求中包括了数据安全、数据隐私等各个方面的要求，阿里也有完整的企业级产品系列。他强调，虽然企业通过大模型来提升日常工作效率，但并不代表这些数据会用于大模型自身的训练。

“比如，通义千问技术的模型训练不依赖于用户数据，而是更多依赖于基础的知识理解，这种应用再结合会议的场景以及视频的场景，才诞生了今天的通义听悟，更多是利用技术模型的能力去帮助我们做总结、翻译以及内容的摘取。”他说。

但从目前市场的竞争来看，大模型赛道已经相当拥挤。中国科学技术信息研究所所长赵志耕此前表示，中国10亿以上参数规模的大模型已经接近80个，自然语言处理领域更是竞争激烈。

面对当前大模型的竞争，周靖人表示，目前外界对大模型要求很高，从通义千问发布以来，阿里云也陆陆续续做了大量工作，并在全国开始部署AI的模型。“同时在云的底层通过一系列模型优化不断降低模型使用的成本，降低模型所使用的资源，只有这样能够让模型真正意义大规模去服务社会。”

关键词：