大模型涌现，数据流通和安全伦理怎么办？业界谈了这些要点

当前大模型和AIGC引领新一轮人工智能创新浪潮。那么，随之而来的数据流通和安全伦理问题，应该如何解决？

在2023世界人工智能大会（WAIC）上，政企学界围绕人工智能的数据流通和安全可靠进行了讨论。

(资料图)

数据有效供给是关键

作为人工智能大模型中的关键性因素，数据决定了模型的训练质量、性能表现和应用领域的广度与深度。如何有效获取数据，成为生成式人工智能的第一道“关卡”。

在8日举行的WAIC“大模型时代下的数据要素流通”主题论坛上，上海数交所总经理汤奇峰说，大模型时代下的语料库建设存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。 “语料库建设不是单一企业的责任，需要多方共同推进，如果每个企业都单独建设维护语料库，会拉低效率，也会增加企业成本，数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”

中国电子副总经理陆志鹏也表示，大模型技术实现高质量发展，数据有效供给是关键，亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。

关于语料库建设的挑战，汤奇峰称，这主要集中在开放程度和数据质量两方面。比如，能否有大模型企业所需的高质量语料？目标对象愿不愿意开放数据？针对数据质量高但开放程度低的供方，可以通过数据交易链有效破解语料数据流通的信任问题。“核心问题之一在于产权和参与大模型后的收益分配。”

7月7日，上海数交所官网正式上线语料库，累计挂牌近30个语料数据产品，包含文本、音频、图像等多模态，覆盖金融、交通运输和医疗等领域，并牵头发起语料数据生态创新合作伙伴计划。

汤奇峰说，大模型建设中，语料库是非常重要的方向，语料库采购已经在不少大模型企业成本中占较大比重。上海数交所希望以市场配置的方式组织数据要素推动语料库建设。“比如，有的企业具有海量高质量数据资源，开放意愿度也很高，但需要组织大量社会第三方企业帮助组织相关的大模型训练，我们针对四类数据产品开发情况不同、实际需求不同的供方企业制定了差异化工作策略，着力打造语料数据生态。”

金叶子／摄

安全伦理如何解决

如何平衡大模型发展中的技术与伦理问题，也是今年WAIC论坛上业内人士关注的问题。

中国信通院副院长王志勤在“2023聚焦·大模型时代AIGC新浪潮论坛可信AI专场”上表示，伴随着大模型能力的涌现，人工智能固有技术风险也在持续加大。人工智能可信面临着全新的挑战，对人工智能安全可信的要求也提到前所未有的高度。各国政府、业界纷纷加入推动可信人工智能发展行列中。

在中科院自动化研究所研究员、人工智能伦理与治理中心主任曾毅看来，生成式人工智能目标是通用、多任务。但一个生成式人工智能，没有进行伦理和价值观校准前，问它伦理道德相关问题，它的回答具有非常明确的统计显著性，这个统计显著性反映的是人类的偏见。没有安全伦理框架的人工智能，实际上是没有底线的。“为什么我们进行可信人工智能、人工智能伦理研究？这正是它的必要性所在。我要明确表示一个观点，我们应该明确区分人工智能与人类的界限。”

曾毅认为，在用生成式人工智能进行创新的时候，不能仅仅讨论机遇，也不能只看法律限制。在某些问题上，即使没有触犯法律，但违反了社会伦理道德，也不应该去做。“即使通用人工智能真正 ‘上善若水’，人与人工智能是否能够和谐共生，最终取决于人如何行为，而不是人工智能。”

本届WAIC发布了《可信AI技术和应用进展白皮书（2023）》、《人工智能大模型伦理规范操作指引》、《AIGC风险评估框架（1.0）》等一批成果，规范生成式人工智能发展中伴随的风险和伦理问题。

关键词：