【中文摘要】训练数据的数量和质量成为人工智能技术发展的关键要素。而伴随DeepSeek爆火的人工智能蒸馏数据技术能满足不同人工智能发展的数据需求并且降低训练成本,彰显算法创新价值,但也引发争议,存在涉及反向工程的软件著作权风险和侵犯商业秘密的不正当竞争等新挑战,亟待完善风险治理机制。考虑到各国缺乏明确法律依据,需基于规范分析等方法调整现行监管框架。一方面,贯彻系统观念全面梳理外部监管要求,除落实数据安全要求之外,也要纾解反向工程涉及的著作权风险,且理清不正当竞争规制边界。另一方面,落实激励相容理论完善内部合规机制,强化刚性约束以压实企业数据治理责任,通过完善正向激励制度促进企业主动参与风险治理。
【全文】
引言
在人工智能“数据、算法、算力”三要素中,大规模且高质量的数据将成为人工智能全球竞赛的“胜负手”,人工智能企业应当满足高标准的数据合规要求以推动风险治理和应用出海。2025年1月20日,杭州深度求索公司发布最新款人工智能产品DeepSeek-R1并开源,选择更低成本的纯强化学习算法,通过蒸馏数据实现效率提升,成功破圈,引发全球关注[1]。其中,DeepSeek采取的数据蒸馏技术作为降低人工智能训练和应用成本的关键技术,自2015年被“AI教父”Geoffrey Hinton提出后获得广泛应用[2]。该技术通过数据预处理,采取去重、过滤以及重新混合三阶段策略,提取出数据特征并进行数据降维以减少复杂度,最后整合提炼的知识,并将推理能力传递至小型模型,实现知识迁移[3]。由此揭示算法创新在促进技术发展方面的独特价值。
人工智能蒸馏数据技术除存在ChatGPT面临的未经授权爬取的知识产权保护、数据采集时的隐私和数据安全保护以及网络犯罪等一系列风险外[4],也出现因数据存储地在中国而需跨境传输所导致的数据安全和隐私保护不足、涉及数据复制和反向工程的软件著作权侵权风险以及侵犯商业秘密的不正当竞争等治理新挑战,成为域外国家调查乃至禁用DeepSeek的原因[5]。从ChatGPT的数据爬取到DeepSeek的数据蒸馏,人工智能在采集、训练和使用中对数据的处理存在较大争议,但由于各国缺乏明确且匹配技术发展的监管规范,需要学术界及时回应。为提升数据风险治理力度以满足我国人工智能企业的技术出海需求,应当认识到人工智能法律监管时常滞后于技术发展,且面临着管辖范围小于技术应用范围的局限而产生的执行问题。因此,除健全模型的提示反馈机制并强化安全性监管外[6],亟待凝聚各国监管共识以更新技术监管理念,并将散落的法律规范汇集为系统规制框架以明确外部监管要求,同时以刚性约束和正向激励调动企业的内部合规积极性从而降低政府监管失灵风险,通过风险的全面治理以平衡创新与安全目标。
1 文献综述
1.1 DeepSeek和ChatGPT的数据训练方法对比
虽然ChatGPT和DeepSeek都是基于Transformer机器学习算法的大模型,但DeepSeek在架构开放性、算法透明性以及知识动态性等方面实现了质的跃迁[7]。具体到数据训练方法,ChatGPT使用生成式预训练、有监督微调以及人类反馈强化学习(RLHF)算法,不断递增的数据规模是实现性能提升的基础[8],因此存在数据需求量高的制约[9]。ChatGPT大量频繁爬取数据引发较大的著作权争议[10]。而DeepSeek使用创新的数据蒸馏技术,通过对抗训练合成新数据,并自动识别高价值的数据片段,由此降低数据获取成本并提升了训练效率[11]。但是这并不意味DeepSeek不需要爬取数据,其依旧具有很高的数据依赖性,在数据采集和训练中也不完全可控。
1.2 人工智能蒸馏数据的法律风险梳理
关于蒸馏数据技术的研究主要集中于自然语言处理等计算机技术层面[12],其中法律风险仅停留于知识产权侵权和技术滥用[13]、数据隐私保护[6]、侵犯他人复制权和改编权的著作权风险以及“搭便车”的不正当竞争风险[14],存在违背服务协议的合同违约等[15]。由于DeepSeek出现较晚,法学相关研究较为匮乏,既有研究中关于其法律风险的梳理停留于局部而且缺乏基于宏观视野的系统分析,关于风险的分析也未深入展开从而导致解决对策的可操作性较弱。既有研究也未关注到DeepSeek的隐私政策规定用户数据是存储在中国服务器上,该规定可能引发域外国家监管机构的数据安全担忧。
1.3 人工智能蒸馏数据的法律规制疏漏分析
人工智能蒸馏数据的法律规制路径和方法并不清晰。比如,有学者指出数据来源和处理等方面缺乏明确依据,以及知识产权侵权标准模糊[6];我国《著作权法》第24条合理使用制度中适当引用和科学研究使用等规定难以涵摄人工智能的数据使用行为[16],同时在技术治理层面提出健全模型提示与反馈机制等对策[13]。也有学者从生成式人工智能的法律规制角度提出合规收集个人信息并要落实最小比例原则[17],采取转换性使用标准认定著作权侵权风险[18],构建法律规制和技术治理的双元共治模式等[19]。由此可知,既有的法律规制对策并不能全面回应人工智能蒸馏数据的风险治理需要,更关注外部法律规制而忽略企业内部的合规治理,这样不周延的分析导致风险治理效果较差。
2研究方法和过程
2.1 研究方法
本研究旨在梳理DeepSeek所采用的人工智能蒸馏数据技术涉及的法律风险,通过明确外部监管要求以坚守安全底线。同时,健全刚性约束和正向激励机制以提升企业的内部合规治理积极性,协同提升风险治理效果。为此,本研究基于系统观念和激励相容理论,选取文献分析方法、比较分析方法以及规范分析方法展开。其中,文献分析方法通过梳理关于人工智能蒸馏数据的研究成果,准确把握研究现状,以较充分的研究素材夯实分析基础。比较分析方法主要是研究域外国家关于人工智能蒸馏数据等新型行为的规制思路和制度安排,而后结合我国的监管目标进行针对性采纳。规范分析方法主要是基于法律解释论,分析研究涉及的《著作权法》《反不正当竞争法》《数据安全法》《个人信息保护法》以及《生成式人工智能服务管理暂行办法》等法律规范,梳理人工智能蒸馏数据这一行为所涉及的法律风险,明确风险治理体系的完善方向。
2.2 研究过程
在满足人工智能蒸馏数据训练需求的同时也需要保障数据安全,贯彻党的二十届三中全会提出的“建立人工智能安全监管制度”要求系统推进风险治理[20]。首先,需要全面梳理并且分析人工智能蒸馏数据存在的法律风险,包括数据安全、著作权侵权以及不正当竞争等风险,为外部监管明确风险治理标靶。其次,需要坚持系统观念,结合风险类型推进整体性治理,健全法律监管体系以逐点回应法律风险,提升治理的前瞻性。最后,为提升风险治理效果且满足企业出海的合规要求,可以借鉴并引入《反垄断法》中的刚性约束和正向激励机制,全面贯彻《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》)中压实企业的数据治理责任之要求,和鼓励企业创新内部数据合规管理体系之期待。具体分析框架可见图1。
图1 人工智能蒸馏数据的风险治理框架
2.2.1梳理人工智能蒸馏数据风险治理面临的新挑战
DeepSeek所采用的强化学习算法较少依赖人工标注数据,但其技术发展依旧需要采集数据用以训练和改进,再加之可能涉及蒸馏其他主流模型的数据并将其作为自身的训练数据集,这使法律风险更复杂,需要分类梳理并系统回应。
首先,针对数据安全风险,不仅包括传统因为数据泄露而产生的隐私保护风险[21],也包括因为DeepSeek隐私政策规定用户数据是存储在中国服务器上,在服务过程中采集并跨国传输外国用户数据而产生的国家安全与隐私保护风险。当我国的人工智能企业无法满足外国政府监管要求时,可能面临罚款乃至下架APP等严厉处罚。
其次,针对著作权侵权风险,不仅包括复制其他模型数据存在侵害复制权风险,也涉及反向工程和模型盗窃攻击所引发的软件著作权纠纷。针对前者,当关于人工智能生成数据被认定为作品并享受著作权保护时,人工智能蒸馏数据就将被认定为侵犯作品的复制权等权利。不过我国关于人工智能生成物是否享受著作权保护尚无明确法律规定,学界也并未达成一致,持较肯定态度的学者指出当人类投入独创性贡献而生成的数据应予以著作权保护[22],将人工智能出版物作为特殊财产加以保护[23],以及采取更开放立场对人工智能生成的数据提供某种形式的著作权保护等[24]。但是当人工智能生成的数据不属于作品时,那么人工智能蒸馏数据就将不涉及复制权侵权风险,需要进一步的探讨。针对后者,当前关于人工智能蒸馏数据技术并无明确定论,可能会涉及反向工程的软件著作权纠纷,相应的法律规制边界较为模糊。一方面,《著作权法》第50条将计算机软件反向工程研究作为避开技术措施的豁免理由,但是需要满足“不得向他人提供”等条件,而人工智能蒸馏数据后获得的大模型是否能够向他人提供的,认定标准尚不明晰。另一方面,蒸馏数据可能会和模型盗窃攻击(Model Theft Attacks)混淆。模型盗窃攻击具体是指旨在盗取目标模型的训练参数、架构以及学习参数的模型属性攻击行为,包括通用方程求解攻击、侧信道攻击(SCA)以及模型指纹识别攻击等方式[25],属于对人工智能模型属性和功能的复制,应认定为侵权行为。需注意的是,20世纪90年代引入的版权技术措施已经无法满足人工智能等新兴技术的发展需要,制度逐渐僵化而出现提供超版权保护以及侵蚀合理使用空间等缺陷,甚至可能会沦为制约数字市场和数字社会发展的阻碍。应当进行制度的重新定位,修正原禁止性规范,消弭数智技术带来的版权利益失衡争议,通过细化风险分析来促进人工智能蒸馏数据的规范适用[26]。
最后,针对不正当竞争风险,这属于人工智能蒸馏数据涉及的崭新风险,学界对此研究较为匮乏,但蒸馏技术已成为各人工智能巨头企业角力的手段,需要加以重点分析。OpenAI等产业引领者出于维护竞争优势的需要,往往在使用条款中增加“禁止使用output(输出内容)开发与OpenAI竞争的模型”限制条件[27]。虽然其负责人奥特曼对媒体表示“没有计划”起诉DeepSeek[28],但考虑到微软和OpenAI在DeepSeek推出伊始便指控其盗取数据,以及3月13日OpenAI向美国政府提交信函攻击DeepSeek存在“重大风险”,可见数据蒸馏技术已经成为不正当竞争工具而限制对手发展[29]。同时,考虑到ChatGPT等模型属于闭源模型,其代码和技术细节是作为商业秘密加以保护的,这类技术信息属于《反不正当竞争法》第9条规定的商业秘密。而数据蒸馏技术除获取人工智能生成的数据作为训练内容外,能够实现知识的迁移,因而可能被归入不正当获取商业秘密情形并违反《反不正当竞争法》,需要厘清该行为是否属于不正当竞争手段。
2.2.2 完善基于系统观念的法律风险监管体系
虽然当前DeepSeek采用的蒸馏数据技术并未产生实际损害,但是为回应既有监管理论的不足和提升风险治理的前瞻性,需要坚持系统观念对存在的风险进行全局性谋划,并进行事前预防。一方面,人工智能数据训练行为的复杂化程度在不断上升,既有理论难以有效适用。具体而言,数据风险治理理论主要是遵循《数据二十条》中数据流通全过程管理要求,比如在监管模式层面考虑社交网络的去中心化,由此转向过程性规制,避免陷入对信息实体价值判断的误区[30],还有从数据收集、组织、保存、共享及利用等不同环节切入,立足于数据的全生命周期进行管理[31]。而蒸馏数据中往往还需要搭配针对新数据集的学习,不断从用户反馈中采集处理新数据,由此形成“数据越丰富—模型效果越好—越多人使用—训练数据越多”的正向循环,难以割裂特定环节并进行分析。另一方面,注意到新一代的人工智能是建立在不安全的技术架构上,包括使用不安全的训练和对齐技术[32],可能导致不可控的社会治理风险。而为提升风险规制效果,除进行提前谋划外,也需要提升规制整体性,将涉及的各类新型风险纳入规制。
坚持系统观念不仅是党的二十届三中全会所提出的进一步全面深化改革的原则遵循,也契合人工智能数据使用行为的复杂性治理要求,因此要在法律监管中予以贯彻。系统观念具体是指用普遍联系和发展变化的视角观察事物,进行“前瞻性思考、全局性谋划、整体性推进”,重视通过各子系统、各要素协同作用,提升整体效应[33]。在系统观念的指引下,人工智能蒸馏数据的风险治理需要满足以下两方面要求:一方面,进行前瞻性思考。出于促进技术创新的政策考量,需要容许风险的存在,但为避免风险的不可控并且减少我国企业的出海风险,应当结合数据训练方法,对ChatGPT等现有人工智能所存在的风险进行类推,从而明确各类风险的监管要求并促进技术的合规发展。另一方面,需要进行全局性谋划和整体性推进。人工智能蒸馏数据不仅涉及传统的数据安全和隐私保护风险,也涉及著作权风险,并且存在不正当竞争的风险,需要从风险类型出发加以系统的监管。第一,数据安全作为底线要求,需要落实《国家安全法》《数据安全法》《个人信息保护法》等要求,保障安全发展。第二,需平衡促进创新和保护知识产权要求,纾解著作权法层面复制其他模型数据和反向工程的侵权争议。第三,应关注不同人工智能应用的用户守则,分析蒸馏行为属于行业惯例还是不正当竞争手段,保护初创企业的合法利益,从而明晰外部法律监管要求并提升监管效果。
2.2.3 健全基于激励相容理论的企业合规机制
人工智能过快的技术迭代速度对强调外部法律规制的传统监管模式造成严峻挑战,应当贯彻《数据二十条》提出压实企业的数据治理责任之要求,通过完善人工智能企业的内部合规体系来实现风险的源头性治理。以DeepSeek使用的强化学习算法为代表,当前的人工智能技术并非完全依靠人为设计而是存在“自主学习”,这使人工干预更困难。同时,政府监管部门由于缺乏足够的专业人才和执法资源,风险治理难以满足及时高效要求,存在较典型的政府失灵问题。为此,需要推动人工智能企业的参与,完善多方参与的风险治理机制,实现外部规制与内部合规的有机协同。但“徒法不足以自行”,仅凭倡导难以推动,需要引入管理学中的激励相容理论,即通过设计奖惩机制,解决信息不对称问题,引导参与者在追求自身利益同时促进整体目标的优化[34]。当前如ChatGPT等部分人工智能选择了闭源路线,也并不会主动对监管机构备案所有代码,而DeepSeek尽管采取了开源模式,也并未公开训练数据集,导致数据风险是不可知的。但风险治理目标是一致的:监管机构需要控制数据风险以落实安全要求,避免对民众财产安全、社会稳定乃至国家安全造成威胁;而人工智能企业也需要控制数据风险以减少被处罚乃至下架APP的概率。由于企业可能存在侥幸心理而不会主动合规,为此在引入惩罚机制同时要完善激励机制,以引导企业主动完善内部合规体系建设。
为完善激励相容理论提出的奖惩机制,可以借鉴反垄断法中的刚性约束和正向激励机制,促进人工智能企业主动参与风险治理。一方面,为降低人工智能企业的侥幸心理并解决“阳奉阴违”问题,需要梳理企业面临的利益抉择并且完善刚性约束机制,促进外部法律监管要求的落实。部分中小企业和后发企业为尽快抢占市场,往往会选择采取不合规的蒸馏数据技术以实现在短期内弥合技术差距的目标,并且存在逃避监管的侥幸心理,而完善刚性约束机制能通过提升惩罚力度和增加调查频次等方式促进风险治理要求的落实。另一方面,由于人工智能合规机制建设存在安全技术发展较不成熟、合规成本和收益并非完全对等、投入成本高以及回报慢等问题,引入正向激励机制能更好激发企业能动性以自觉遵循合规要求。也即属于“有形实施”和“无形实施”的结合,兼具抑制违法和鼓励预防之功效。激励相容理论的落实,不仅能够推动企业更好满足监管部门的外部监管要求,也能降低企业面临的法律风险并提升其全球竞争力。
3 研究结果和讨论
人工智能训练数据的风险问题现已成为各国关注重点,蒸馏数据亦不例外。为提升风险治理的针对性与实际效果,我国要在理清人工智能蒸馏数据风险治理面临的新挑战基础上,落实系统观念和激励相容理论。不仅要明晰外部的监管要求以坚守技术发展的安全底线,也要健全刚性约束和合规激励制度以完善内部的企业合规机制,从而将技术发展阻碍转化为企业和监管机构增加互信的契机,满足快速变化的风险治理要求。
3.1 人工智能蒸馏数据的外部监管要求明晰
为贯彻系统观念,需要从法律风险类型出发,对于人工智能蒸馏数据治理面临的新挑战进行针对性回应,明晰其中的法律监管要求,提升外部的政府规制效果。具体而言,针对数据安全要求,不仅需要推动国际协同治理以满足跨境流动中的安全保障标准,也要在规范数据采集的基础上提升个人信息保护水平,并进行数据本地化处理以满足域外国家的隐私保护要求。而针对著作权侵权风险,除明确人工智能生成物不属于著作权法保护范畴而豁免蒸馏数据所涉及的复制权侵权责任,也结合蒸馏数据的目的和行为影响来明确反向工程的软件著作权侵权豁免标准。最后,针对不正当竞争风险,通过明确行业惯例认定标准划定人工智能蒸馏数据技术的合规边界。
3.1.1落实国家安全和隐私保护的数据安全要求
在加大高质量数据集供给以满足人工智能性能提升需求的同时,也需保护国家安全在蒸馏过程中不受侵犯。人工智能的服务范围已经超越主权国家法律的管辖空间,而提供服务往往意味数据的跨境流动,可能关涉国家安全和隐私保护而需满足不同国家的监管要求。但不同国家的规制要求和模式并不一致,比如欧洲采取严格保护制度,而美国采取鼓励流动态度以满足数字贸易需求,这时应当推动国际协同治理以满足差异的监管要求。具体到国家安全保护,不仅需要健全数据安全审查和监测预警制度,还要落实重要数据出口管制要求,即依据《数据安全法》落实分级分类保护要求,对于列入本地区、本部门以及相关行业、领域的重要数据目录进行重点保护,并高度关注涉及相应数据资产的外资并购。在此基础上,需要积极推动国际协同治理,可先在治理目标和治理原则等宏观层面达成一致,而后推动监管规则的制定,并且可以增设例外条款平衡不同国家的监管差异以提供弹性实施空间。我国可以在当前既有的“一带一路”战略基础上推动“数字一带一路”的规则建构,逐步实现从“参制”向“创制”转变,提升我国针对人工智能蒸馏数据的治理话语权。
针对隐私保护,为更好与国际接轨以满足域外国家的监管要求,可以比照“欧盟—美国数据隐私框架”(以下简称“框架”)及其2024年11月发布的第一次审查报告,在落实正当必要原则的基础上完善自我认证、投诉与救济机制,并推动数据本地化处理。首先,需落实正当必要原则,这也是我国《个人信息保护法》保护要求,即采集、传输以及分析个人信息应当有明确、合理的目的,不过度收集且要采取对个人权益影响最小的方式。其次,可以借鉴框架中的自我认证机制,要求人工智能企业进行自我评估,并健全相应的投诉处理、独立申诉及仲裁机制[35]。在此基础上,我国可以完善第三方认证和司法救济机制,通过有公信力的第三方认证机构进行评估,并推动企业获得国际机构的认证。同时,落实能动司法要求,考察人工智能企业对于隐私保护要求的落实情况,并探索公益诉讼的介入,落实法律监督要求。最后,可与微软等企业合作,对国外采集的数据进行本地化处理,降低乃至消除意大利等域外国家的隐私安全担忧。
3.1.2 纾解数据复制和反向工程的著作权风险
为切实平衡知识产权保护和促进创新要求,需要梳理蒸馏数据技术所涉及的知识产权风险并加以治理,防止域外国家和企业的无端指责。针对蒸馏数据过程中复制其他模型生成数据所涉及的侵犯复制权风险,在立法层面,我国尚未承认人工智能生成内容的著作权,特别是未明确认可人工智能作为著作权权利主体的地位,即人工智能生成的数据并不能得到著作权保护,人工智能蒸馏数据当然也就不构成侵权。而在司法层面,我国法院虽然没有明确人工智能生成数据的著作权保护,但是强调作为作者的人类主体所做出的贡献。比如在武汉首例AI图片创作者维权案中,法院虽然确认了人工智能所生成的图片属于作品并可获得《著作权法》保护,但在判决中重点关注了创作人王女士的创造活动[36]。具体到人工智能蒸馏数据,该过程中并不涉及人的创造活动,而是数据的自动生成,当然也就不应当被认定为作品。由此可知,人工智能蒸馏数据由于复制的数据不属于《著作权法》保护的作品,因此该行为不存在复制权侵权风险。
同时,为明确人工智能蒸馏行为是否属于《著作权法》第50条所规定的反向工程豁免标准,需要结合蒸馏的对象和行为影响两方面进行分析,以明确其与模型盗窃攻击行为的差异。针对前者,反向工程豁免针对的是采取技术措施防止未经权利人许可了解软件的技术,而针对ChatGPT这类闭源模型,难以通过公开渠道获取其技术信息,是属于反向工程的适用对象。针对后者,反向工程豁免需要满足不得侵犯权利人依法享有的其他权利要求。相较于旨在破坏、克隆乃至盗窃技术的模型盗窃攻击行为,人工智能蒸馏技术并不直接涉及对原模型的源代码和底层框架进行反编译,也不构成《著作权法》第49条规定的“以避开或者破坏技术措施为目的”,而是以促进技术发展为目的,而且不会将蒸馏后的数据向他人提供,这时应认定构成合理使用而非著作权侵权。
3.1.3 划定保护商业秘密的反不正当竞争规制边界
知识产权保护并不意味着权利人利益边界的无限延展,需要落实《数据二十条》中“不得利用数据、算法等优势和技术手段排除、限制竞争,实施不正当竞争”之要求,营造规范有序的市场环境。一方面,就市场公平竞争保障逻辑与法律目标而言,允许符合监管要求的蒸馏数据能显著增加数据供给规模并一定程度上提高数据质量,并更好保障中小企业获取的创新资源的机会,以此“规范科技创新活动的有序性和公平性[33]”。同时,也能够有效贯彻《反不正当竞争法》中鼓励公平竞争之立法目标。先发的人工智能企业通过数据爬取和购买数据集,积累了大规模的优质训练数据,同时也导致各大网站提升了反爬取难度并提高数据集价格,而这对后发和中小型的人工智能企业造成了更沉重的负担。出于实质公平考量,应允许后发的人工智能模型在不影响原模型运行的基础上,通过蒸馏数据技术获取部分数据进行补充训练,促进市场竞争。
另一方面,在具体操作中应肯定以DeepSeek为代表的人工智能蒸馏数据技术属于行业惯例,不应当直接适用《反不正当竞争法》一般条款进行规制。但当蒸馏数据影响原模型使用时,出于利益平衡的考量,应认定违背商业道德而加以规制。DeepSeek在其用户协议中明确指出遵循MIT License,允许用户通过蒸馏技术借助 DeepSeek-R1训练其他模型,即基于宽松的开源软件许可证允许用户在几乎没有任何限制的情况下使用、修改和分发软件。这也是当前国内外诸多企业将DeepSeek直接接入己方应用的原因,由此可见蒸馏数据属于行业惯例,需要加以豁免以促进技术创新。但当蒸馏数据涉及采取网络攻击、大量占用有效带宽、绕过安全措施以及规避速率限制等不当措施时,会造成严重损害,甚至影响原模型提供的正常服务,严重违背商业道德,这时应认定该行为不具有正当性,需适用《反不正当竞争法》加以规制,以保护原模型经营者的合法权益。
3.2 人工智能蒸馏数据的内部合规机制完善
法治除了发挥惩戒作用外,也包含预防和激励价值,需要贯彻激励相容理论,发挥奖惩机制的协同作用以提升人工智能蒸馏数据的风险治理效果。出于企业自律而完善的内部合规机制是风险治理成本最低、反应最快以及成效显著的治理模式,能够对于外部法律监管模式进行有益补充,在“算法可知”基础上推动“技术可控”。在具体实践中,不仅需要强化刚性约束机制来压实企业治理责任,也需要健全正向激励机制来提升企业的积极性,从而激发企业的合规积极性以满足不同国家的监管要求。
3.2.1 强化刚性约束机制以促进监管要求的落实
刚性约束机制是风险治理的外在保障,合规激励制度是风险预防的内在动力,两种机制的相互协调和彼此促进,能进一步促进多主体参与的监管体系完善,促进蒸馏数据等人工智能新型技术合规发展。市场失灵无法根治,人工智能技术的发展也无法规避市场的盲动性,当DeepSeek取得了瞩目的成功后,必然会诱导部分人工智能企业投入蒸馏数据的行列以实现技术突破和成本降低,但是其并不会完全遵循法律监管和合规要求。为此,强化刚性约束势在必行,也是落实安全监管制度的要求。
第一,应当落实《生成式人工智能服务管理暂行办法》第16条要求,针对人工智能的技术特点及其在有关领域的服务应用,制定分类分级监管规则或者指引,具体可以结合数据安全、著作权以及不正当竞争等领域的监管要求,细化人工智能蒸馏数据的审查标准,保障制度供给的充分和有效,以此提升外部监管的可操作性。在细化监管要求的基础上应优化审查流程,完善内部审查和外部审查结合的双重审查流程。先由人工智能企业结合业务范围对照监管要求进行自查自纠,并通过内部合规机制对处理发现的风险,而后可由监管机构进行专项会审,最后得出审查结论,明确合规机制的有效性。
第二,应落实多元共治的要求,通过多方参与的监管平台对出现的法律风险进行分析研判,并健全配套的例行抽查、社会举报及约谈制度,由国家网信办和工信部等部门进行监管。其中,抽查是指由监管部门对企业落实外部监管要求的情况进行抽样调查,督促人工智能企业进行及时整改。举报是指任何企业和个人都可以向监管部门反映人工智能企业的违规情况,相关部门在接到举报后应当及时处理或者转送到有权处理的其他机构,以提升风险治理的及时性。约谈制度虽然缺乏强制执行力而属于软法范畴,但是在实践中存在较大的威慑力,人工智能企业为减少乃至规避可能的罚款等处罚,会更加重视。当约谈后仍不整改或整改不到位的,再进行立案调查和处罚。
第三,应当健全追责约束制度,使刚性约束机制“有牙齿”。严厉而且规范的惩罚机制是强化刚性约束的基础所在,严厉的处罚制度是威慑的基础,但若执法不力将增加人工智能企业的侥幸心理,甚至使惩罚停留于纸上。为此,应当加大执法力度,不仅要建设一支懂技术和懂法律的复合型监管队伍,也要增加监管资源供给,便利执法活动。而当调查确证人工智能企业存在违法事实时,需要严肃追责和严格执法,按照情节严重程度进行惩罚并减少相应的合规激励配套,督促企业主动落实监管要求。
3.2.2 健全合规激励机制以提升企业治理积极性
同时,也需要注意仅凭外部监管的刚性约束并不能解决人工智能蒸馏数据所面临的所有问题,应贯彻激励相容理论以推动正向激励制度的完善,提升人工智能企业完善和落实合规机制的积极性。具体可以从以下三方面推进:其一,强化硬法与软法的协同治理。在发挥《生成式人工智能服务管理暂行办法》等硬法指引和保障价值的同时,也要重视国家标准和行业标准等软法的补充作用,根据不同基础模型和应用场景采取差异的正向激励措施,从而提升激励效果以激发企业积极性。
其二,推动事前合规和事后合规的激励结合。针对事前合规的正向激励,监管机关在获得人工智能企业的合规承诺后可适当降低检查频次,转而检查合规承诺的执行情况,推动合规体系的建设。此外,还包括中止调查,具体是指人工智能企业作出在规定期限内消除风险的承诺,监管机构可以将合规体系的建设情况作为考量因素,可先暂停调查,在后期验收后作出继续调查或者结束调查的决定。针对事后监管的正向激励,主要包括宽大减免、酌情从轻或减轻处罚等,当满足《行政处罚法》第33条规定的,可以不予处罚。同时,需要明晰的是针对事后合规的正向激励不应高于事前激励,引导企业更多选择事前合规而非事后合规,降低监管成本并且提升合规成效。
其三,拓展正向激励的适用主体并充实政策工具箱,以回应不同层次的激励需要。不仅应将正向激励主体由企业拓展到自然人,减轻或免除其法律责任,从而激发负责人建立并遵循合规体系的动力,更规范地从事经营活动。同时,也应增加消除信用惩戒和刑罚记录等激励措施,避免行政处罚对企业后续招投标、贷款以及上市交易等环节造成影响,提升正向激励预期,使激励措施切实落地。但需要注意,正向激励措施并不能够直接适用,需要健全实质性审查制度,只有通过审查才能够享受上述激励措施。
4 结语
当技术发展推动算力越发廉价易得和算法不断进步时,训练数据集的数量和质量将会直接决定人工智能的性能提升幅度,因而需要及时调整监管策略以促进技术发展。尽管并无直接证据证明DeepSeek蒸馏了ChatGPT的数据,但为提高训练数据集的质量并降低成本,需要及时回应人工智能通过蒸馏数据获取数据的法律争议,落实李强总理在2025年国务院《政府工作报告》提出的“提高公共安全治理水平,推动治理模式向事前预防转型”要求[37],以外部监管和内部合规的治理体系完善推动风险的事先预防。未来,应当进一步完善法律规制和技术治理的双元共治框架,以监管科技的针对性运用来补充法律规制的不足,提升监管的灵活性以回应快速变化的风险治理需求。
【参考文献】
[1]熊超然.DeepSeek在全球140个市场下载量排名第一,印度新增用户占比最多[EB/OL].(2025-02-01) [2025-03-05].https://baijiahao.baidu.com/s?id=1822864679411370986&wfr=spider&for=pc.
[2]HINTON G,VINYALS O,DEAN J,Distilling the Knowledge in a Neural Network[J/OL].arXiv,1-9[2025-02-05].https://arxiv.org/abs/1503.02531.
[3]DeepSeek-AI,DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning[J/OL].arXiv,1-22[2025-02-02].https://arxiv.org/pdf/2501.12948.
[4]程乐.生成式人工智能的法律规制——以ChatGPT为视角[J].政法论丛,2023(4):69-80.
[5]LUNDEN I,Ireland and Italy send data watchdog requests to DeepSeek:‘The data of millions of Italians is at risk’[EB/OL].(2025-01-29)[2025-02-01].https://techcrunch.com/2025/01/29/italy-sends-first-data-watchdog-request-to-deepseek-the-data-of-millions-of-italians-is-at-risk/.
[6]邓建鹏,赵治松.DeepSeek的破局与变局:论生成式人工智能的监管方向[J/OL].新疆师范大学学报(哲学社会科学版),68-77[2025-02-27].https://doi.org/10.14100/j.cnki.65-1039/g4.20250214.001.
[7]郭亚军,徐苑茜,梁艳丽,等.从ChatGPT到DeepSeek:生成式人工智能迭代对图书馆的影响[J/OL].图书馆论坛,1-9[2025-02-28].https://link.cnki.net/urlid/44.1306.G2.20250226.1616.005.
[8]马治国,张楠.通用人工智能的数据风险及法治应对路径[J].北京工业大学学报(社会科学版),2024,24(5):131-142.
[9]李耕,王梓烁,何相腾,等.从ChatGPT到多模态大模型:现状与未来[J].中国科学基金,2023,37(5):724-734.
[10] ALLYN B,'The New York Times' takes OpenAI to court. ChatGPT's future could be on the line[EB/OL].(2025-01-14) [2025-02-10].https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft.
[11]张漫子.DeepSeek颠覆了什么?[N].经济参考报,2025-02-07(6).
[12]邵仁荣,刘宇昂,张伟,等.深度学习中知识蒸馏研究综述[J].计算机学报,2022,45(8):1638-1673.
[13]郑友德,OpenAI指控DeepSeek作弊,AI蒸馏成焦点[EB/OL].(2025-02-05)[2025-02-15].https://baijiahao.baidu.com/s?id=1823185011916513460&wfr=spider&for=pc.
[14]郑志峰. DeepSeek技术应用的侵权责任风险[N].中国社会科学报,2025-02-25(5).
[15]吕政泽,王振宝.头条|谈大模型“知识蒸馏”技术的著作权争议——兼评DeepSeek被指控侵权事件[EB/ OL].[2025-03-06](2025-03-07).https://it.sohu.com/a/867536140_121124708.
[16]包赛君,肖冬梅.生成式人工智能训练数据的著作权法因应:欧盟版权例外规则及其对我国的启示分析[J/OL].图书馆论坛,1-11[2025-02-04].https://link.cnki.net/urlid/44.1306.G2.20250115.1117.002.
[17]刘艳红.生成式人工智能的三大安全风险及法律规制——以ChatGPT为例[J].东方法学,2023,(4):29-43.
[18]顾男飞,方舟之.ChatGPT等生成式人工智能使用作品的合理边界与侵权规制[J].数字图书馆论坛,2023, 19(7):1-8.
[19]顾男飞.生成式人工智能发展的产业促进与风险规制——以Sora为例[J].图书馆论坛,2024,44(11):120-128.
[20]中共中央关于进一步全面深化改革 推进中国式现代化的决定[N].人民日报,2024-07-22(1).
[21] SWAIN G,DeepSeek Leaks One Million Sensitive Records in a Major Data Breach [EB/OL].(2025-01-30)[2025-02-10].https://www.csoonline.com/article/3813224/deepseek-leaks-one-million-sensitive-records-in-a-major-data-breach.html.
[22]王霁霞,高旭.论生成式人工智能创作物的著作权法保护[J].湖南科技大学学报(社会科学版),2024,27(5):103-110.
[23]袁锋.人工智能出版物特殊财产权保护路径研究[J].编辑之友,2024,(11):88-95.
[24]吴汉东.论人工智能生成内容的可版权性:实务、法理与制度[J].中国法律评论,2024(3):113-129.
[25]ZHENG Y,CHANG C H,HUANG S H,et al.An Overview of Trustworthy AI: Advances in IP Protection, Privacy-Preserving Federated Learning, Security Verification, and GAI Safety Alignment[J].IEEE Journal on Emerging and Selected Topics in Circuits and Systems,2024,14(4):582–607.
[26]王影航.版权技术措施制度的体系化构造[J].政法论丛,2024,(6):60-72.
[27] OpenAI.Terms of Use[EB/OL].(2024-12-11)[2025-03-07].https://openai.com/policies/terms-of-use/.
[28]Agence France Presse,OpenAI's Altman Says 'No Plans' To Sue China's DeepSeek[EB/OL].(2025-01-03)[2025-02-10].https://www.barrons.com/news/openai-s-altman-says-no-plans-to-sue-china-s-deepseek-d4786d27.
[29]Open AI向美国政府提交信函攻击Deep Seek [EB/OL].(2025-03-15) [2025-03-15]. https://baijiahao.baidu.com/s?id=1826613095424911629&wfr=spider&for=pc.
[30]龙柯宇.生成式人工智能应用失范的法律规制研究——以ChatGPT和社交机器人为视角[J].东方法学, 2023(4):44-55.
[31]周文泓,叶雅寒,熊小芳.我国面向人工智能的数据治理政策体系构建进展与展望[J/OL].图书馆论坛.1-11[2025-02-06].https://link.cnki.net/urlid/44.1306.g2.20241209.1645.004.
[32]JUDGE B,NITZBERG M,RUSSELL S,When Code isn’t Law: Rethinking Regulation for Artificial Intelligence[J]. Policy and Society,2024:1-13.
[33]涂明君,骆阿宁.现代中国“系统观念”的观念史考察[J].自然辩证法研究,2024(11):3-10.
[34]郑戈.人工智能伦理的机制设计[J].中国法律评论,2025(1):48-62.
[35]EDPB Report on the first review of the European Commission Implementing Decision on the adequate protection of personal data under the EU-US Data Privacy Framework[EB/OL].(2024-11-04)[2025-03-08]. https://www.edpb.europa.eu/our-work-tools/our-documents/other/edpb-report-first-review-european-commission-implementing_en.
[36]汤广花.AI生成内容也可受《著作权法》保护[N].中国新闻出版广电报,2025-02-27(7).
[37]李强.政府工作报告[N].人民日报,2025-03-13(1).