关闭
加载中...

守信如金, 为业载道

浙ICP备19028487号

语言切换

全国优秀律师事务所
全国律师行业先进党组织
连续四年荣获钱伯斯亚太法律指南推荐
2020年荣登《国际金融法律评论》(IFLR1000)榜单
荣获《商法》杂志2021卓越律所大奖

守信如金, 为业载道

金道观察 | 数据合规视角下的高质量数据集建设实务操作

今年国家不断倡导开展人工智能“AI+”和“数据要素×”行动,数据作为AI的核心要素,训练数据的质量决定了AI发展的高度,本文从律师视角出发,基于我们服务某科技公司的实践,提炼出高质量数据集建设全流程的合规要点,分享实务操作经验。

一、国家数据局发布104个高质量数据集典型案例

2025年8月28日,国家数据局在2025中国国际大数据产业博览会上发布104个高质量数据集典型案例,高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据集合。国家数据局将持续引导各方力量积极投身高质量数据集建设,助力AI纵深发展。

(图片源自国家数据局官网)

二、高质量数据集建设的合规价值与法律定位

高质量数据集是数据驱动时代的“核心基础设施”,是避免“垃圾数据进、垃圾结果出”的关键,它还决定了数据应用的可信度、效率与最终价值。国务院印发的《关于深入实施“人工智能+”行动的意见》,强调加强数据供给创新,提高数据要素配置效率。近年来,数据供应链站上时代风口,有些数据供应商为了迎合大模型大厂对数据的迫切需求,存在重技术轻合规的现象。随着高质量数据集的建设逐渐进入标准化发展阶段,既关乎技术问题,更注重合规问题。

三、高质量数据集建设全流程合规要点

不同企业的数据集建设路径会有差异,但大致相同。我们服务的某科技公司积攒了几千万条高质量数据集,他们总结出高质量数据集建设的五步标准化路径:数据采集→数据预处理→数据标注→数据增强→数据产品化。

(图片源自某科技有限公司官网)

1.数据采集环节建立数据来源审查机制

数据采集是高质量数据集建设的第一步,是合规风险的源头,律师会在该环节帮助企业建立数据来源审查机制,重点关注数据采集合法性基础。如在收集医疗健康等敏感数据时,注重数据伦理、个人隐私、数据安全,企业应取得被采集人强授权,应履行约定的采集合同注意事项,注意社会影响力及平衡公共利益。

 

从公开渠道收集的数据,如通过网络爬虫获取的数据,须审查采集目的、手段的合法性,避免危害国家安全、公共利益或侵犯他人知识产权。对于企业直采的个人信息,须遵循《个人信息保护法》的“告知-同意”原则,确保被采集人知晓数据收集目的和使用方式,关注“最小必要原则”,仅收集实现处理目的所需的最低数量个人信息,同时重视“透明度原则”,向被采集人明确告知处理目的和方式等。

2.数据预处理环节建立合规管控和质检机制

在数据清洗等环节,须建立流程规范和标准,合规管控和质检是把控数据质量的核心。如在处理个人信息数据时,去标识化是降低隐私泄露风险的关键环节。律师助力完善质检机制,围绕数据是否存在错误、重复、不一致等质量问题进行检查,以确保数据质量符合不同客户的验收标准。

3.数据标注环节建立质量评估机制

数据标注是AI模型从理论走向实用的前提,AI技术的发展又倒逼数据标注效率的升级,数据标注作为生成式AI的“第一道安全阀”,其合规性是数据要素流通的根基。然而,数据标注易引发合规风险,建立数据质量评估机制是该环节的重点。

 

优质的数据供应商会借力律师,重视标注人员管理、标注规范标准化和质量评估体系三大方面。《高质量数据集质量评测规范》创新性地提出了“场景适用性”维度,强调数据集须满足应用场景的需求,确保数据集从生产到应用的全流程质量可控。换言之,数据标注在重视技术的同时,须符合法律和伦理道德,不能包含歧视性(如种族、性别、宗教等因素)、侮辱性或违法的信息,在标注敏感信息(如医疗、金融数据等)时,遵循特定的行业和隐私保护要求。

4.数据产品化、数据交易环节中的法律框架设计

数据产品化是为了数据流通,打破数据孤岛,数据流通是释放数据价值的关键环节,也是法律风险高发区。企业在使用数据集时,应确保使用方式与收集数据时声明的目的一致。在这个环节,律师可从数据权益界定、数据来源审查、交易合同设计、知识产权保护、是否存在数据泄露、滥用等方面进行法律分析和风险把控,我们会为企业制定数据分类分级管理制度,设计安全事件应急预案等。在企业与第三方共享数据时,律师会协助企业尽职调查,评估接收方的数据保护能力。

 

在数据产品化中,律师协助企业保护知识产权,对数据相关的原创性内容,可通过申请专利、商标、软著登记等方式进行保护,防止他人侵权,同时也防范企业侵犯他人知识产权。数据流通如涉及数据跨境流通的,律师会考虑因法律冲突而引发的合规风险。

四、高质量数据集建设中律师的角色转换

1.担任合规体系构建的引领者

律师应超越传统法律顾问角色,主动成为合规体系构建的引领者。头部数据供应商会建立“数据源-标注-应用-产业培育”的全链条生态,而公共数据运营将成为数据要素市场的重要增长点。律师为这样的企业服务,促使律师在数据管理端和业务端,兼备“法律+技术”的复合型知识。

2.担任数据资产交易的法律架构师

数据流通与数据资产交易是释放数据价值的关键环节,律师更多从法律架构师角色出发,协助客户设计合理的交易结构。像我们服务的某科技公司,他们已提前布局公共数据运营合规体系,参与12项国家级数据标准编制工作,已沿着“合规-技术-业务”的方向良好发展,该公司的显著优势在于其客户在数据资产交易环节的尽职调查成本低,有利于促成数据资产交易。

3.担任数据业务模式的实践者

高质量数据集建设是一项复杂的法律合规工程,需要法律、技术和业务团队的协作,律师在制定数据合规管理制度、撰写风险评估报告、设计合规培训方案等业务时,须深入企业业务场景,以帮助企业建立完善的合规体系。

由于篇幅有限,律师提供数据合规法律业务时,应主动融入数据要素市场建设,加强数据生态圈的合作,培育协同发展格局,为企业构建定制化服务体系,提供智能服务,成为企业数据合规体系的护航者,成为高质量数据合规建设的助推器!

  声明  

本文仅代表作者本人观点,不代表浙江金道律师事务所或其律师出具的任何形式的法律意见或建议,内容仅供参考。如需转载或引用文章任何内容,欢迎私信沟通授权事宜。