辜凌云：人工智能大模型开源面临的问题及数据保护-司法文明协同创新中心

浏览次

【学科类别】人工智能

【出处】民主与法制时报

【写作时间】2024年

【中文关键字】人工智能；大模型开源；数据保护

【全文】

　　当前，人工智能技术快速发展已成为推动社会进步的重要力量，特别是深度学习技术的突破性发展，为人工智能技术的具体应用落地开辟了新赛道。进入数字经济时代，人工智能大模型（指机器通过海量数据训练、深度学习，使其形成强大的数据处理能力，可以对未见过的信息作出准确预测）正通过以开放源代码为主的创新模式（以下简称人工智能大模型开源）实现技术迭代升级与应用扩展。然而，在人工智能领域，以数据为关键驱动的大模型开放源代码活动常面临法律挑战。其中，核心问题在于确保开放源代码数据的合法授权及防范开放源代码过程中的数据泄露风险。在人工智能技术快速发展的当下，如何高效、安全处理和利用训练数据，本文试进行探讨。人工智能大模型开源的数据使用“原罪”

　　在人工智能发展过程中，人工智能大模型研制已成为科技创新重要内容之一。人工智能大模型技术的运作原理主要是以海量数据为依托，并通过数据训练、算法优化等技术捕捉和学习更复杂的内容，从而促进人工智能大模型持续优化与性能提升。然而，人工智能大模型开源的数据不可避免地存在“原罪”，即，直接体现为部分训练数据未获得合法授权，简称数据“原罪”。它主要指在人工智能大模型训练过程中，所使用的大量数据可能来源于未经授权的数据或数据集。这些数据可能涉及个人隐私或受版权保护。未经授权使用这些数据可能侵犯相关主体的合法权益，易引发法律和伦理问题。造成这一问题的主要原因在于，人工智能大模型的研发需要以海量数据为依托。这也是当下以数据为主要驱动方式发展人工智能过程中难以绕过的问题。然而，数据的获取并非易事，往往因涉及隐私、个人信息、知识产权等，需要人工智能大模型研发主体事前获取授权以保证数据训练合法合规。但实践中研发主体往往基于成本、效率等经济因素考量，可能会选择性地“忽视”数据授权问题。在此情况下，人工智能大模型的训练本身便存在数据“原罪”。此时，人工智能大模型通过开放源代码方式使用因前端存在授权瑕疵的数据进行数据训练，势必影响未来人工智能产品的研发升级。人工智能大模型开源可能引发数据泄露

　　在智能时代，人工智能大模型依托开放源代码、共享代码架构、训练数据参数，进而推动技术创新与升级。在人工智能大模型开源过程中数据参数的开放极易引发泄露风险。造成该问题的主要原因在于前端数据收集阶段的不规范操作及可能存在的非法数据使用行为，这些因素共同导致人工智能大模型开源过程中数据泄露风险增加。尽管人工智能大模型开源的内容主要涉及模型的参数权重和代码架构，但开放源代码活动通常允许任何人访问和修改其代码与数据集。这种开放性虽然有助于技术快速发展和迭代，也增加了含有某些特定信息的数据被不当访问的风险。同时，人工智能大模型开源的贡献者往往涉及不同行业，贡献者所提供的数据材料可能参差不齐，难以确保人工智能大模型所训练的数据始终保持规范化。在贡献者开放源代码的意图与动机各不相同时，正常的数据训练后，开放源代码都有可能逐步造成数据泄露风险。此外，企业自身的不当管理也容易导致数据泄露的风险。比如：美国互联网公司Meta正式发布Llama3.1大模型前，就遭遇了数据泄露事件，泄露的模型包括8B、70B和405B三个不同规模的版本，严重影响企业商业利益及人工智能大模型开源的安全进展。人工智能大模型开源背景下的数据保护

　　人工智能大模型开源不仅加速技术创新和应用，还促进产业整体发展。然而，应对人工智能大模型开源带来的数据保护问题，还需要多方、多维度努力，尤其要在数据获取阶段尽力明确权益保障，确保数据获取符合法律法规规定。同时，在后续人工智能大模型数据训练及技术应用时要完善人工智能大模型开源许可证规范，完善行业监管，避免风险扩大化。在数据获取阶段，人工智能大模型开源主体应尽力确保获取训练数据符合法律规定。一方面，优先选择已知其数据使用条款且允许数据用于人工智能训练的数据源，对需要获取授权的数据应符合有关法律规定或进行合同约定；另一方面，积极推动和参与人工智能大模型数据利用活动实践，逐步形成人工智能行业技术发展的有效样本，适时推动建立国家层面的数据训练池，促进制定开放数据源的使用标准化和标准化的数据使用协议。开展数据训练前，进行必要的数据清洗和脱敏操作，以去除可能的个人标识信息，减少个人信息泄露风险。在人工智能大模型开源阶段，应尽快建立完善的数据收集和人工智能大模型开源的示范，并通过更新人工智能大模型开源许可证，实现开放源代码的规范化管理。同时，开展人工智能大模型开源数据保护实践，探索、制定人工智能大模型开源数据保护规则，并建立对数据的使用、分享和保护进行区别化规定的机制。当下，人工智能大模型的发展前景呈现出多维度、多层面的复杂性特征。作为人工智能领域的关键技术，大模型的发展不仅涉及技术层面的发展，更关联其底层数据驱动策略的有效应用与价值实现。因此，有必要在充分认识人工智能大模型开源数据问题的基础上，采取系统性、战略性措施，促进人工智能大模型开源的健康、可持续发展。

【作者简介】
辜凌云，北京大学法学院博士研究生，最高人民法院知识产权司法保护理论研究基地研究人员。

【注释】

本文为国家社科基金重大项目（项目编号：21ZDA049）“推进土地、劳动力、资本、技术、数据等要素市场化改革研究”子课题“数据要素市场建制与法律治理”的阶段性研究成果。

稿件来源：北大法律信息网法学在线

原发布时间：2024/9/6 11:20:05

你在这里