前沿动态
司法文明协同创新中心的建设目标是按照“国家急需、世界一流、制度先进、贡献重大”的要求,依据科学研究、学科建设、资政育人“三位一体”的方针,打造中国乃至世界司法研究的重镇、中国司法学科建设的平台、卓越司法人才培养的基地、司法文明和法治中国建设的核心智库。
雷 磊: 司法人工智能时代仍有法学方法论的运用空间吗?
    【学科类别】人工智能
    【出处】《法学家》2025年第6期
    【写作时间】2025年
    【中文摘要】司法人工智能,尤其是大语言模型的诞生及其运用于司法实践的可能,看起来会消除司法裁判中法学方法论的运用空间。司法人工智能的基本原理在于根据历史裁判数据的统计规律预测(生成)当下的数据,但裁判数据的信息处理不等同于司法裁判本身,计算也不等同于推理或论证。从应然的角度看,只要坚守司法裁判作为说理活动的性质,法学方法论就不应丧失其运用的空间。从实然的角度看,在事实认定领域,机器算法因现实认知能力限制和评价余地应对乏力,无法恰当地从证据材料中建构出案件事实;在法律适用领域,机器算法无法替代创造性的法律解释及其诸多方法,也无法进行真正的漏洞填补和法律修正。但语料库语言学在法律解释中的应用,说明数字技术的确为法学方法论带来信息来源和具体运用样态的改变。未来的算法与方法,应当是相互增强的关系。
    【中文关键字】司法人工智能;机器算法;法学方法论;事实认定;法律适用
    【全文】


      2025年8月26日发布的《国务院关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号)指出,要“深入研究人工智能对人类认知判断、伦理规范等方面的深层次影响和作用机理”,“探索模型应用新形态,提升复杂任务处理能力”。司法裁判无疑属于需要运用“人类认知判断”和“复杂任务处理能力”的领域。故而一段时间以来,人工智能技术在司法裁判中的运用(下文称之为“司法人工智能”)问题已成为一个热门话题。尤其是以ChatGPT和DeepSeek为代表的大语言模型的诞生,使得司法人工智能的前景看起来一片光明。在传统上,司法裁判被认为是一种将法律适用于个案的活动,即基于说理和论证来衔接规范与事实,从而得出裁判结论的过程。在这种活动中,法学方法论扮演着至关重要的作用。它是以实在法秩序为基础探求具体问题之规范性解答的过程中遵循的规则、形式、路径及其体系化,旨在提供各种使裁判得到充分说理的论证模型。但司法人工智能看起来会消除上述图景,因为如果只根据算法,基于历史裁判数据来对当下案件作出裁判,那么也就没有运用法学方法论的必要。事实上,有德国学者已经察觉到现代信息技术对于法学方法论的挑战,并表达过类似的忧虑:如果说法学方法论的特点在于展现了一种作为中间层的精细体系,介于个案决疑与法律规则以及基本规则、基本原则之间,那么对大宗数据的处理程序是否恰好不需要这种精细体系的中间层?
      本文的主旨在于尝试证明,上述这种忧虑是多余的。对此,下文将首先阐明司法人工智能的基本原理及其缺陷(第一部分),接着从事实认定与法律适用两个方面分别展开具体论证(第二、三部分)。当然,虽然司法人工智能不会消除法学方法论的运用空间,但这并不意味着它不会给法学方法论带来改变(第四部分)。
      一、司法人工智能的基本原理及其缺陷
      (一)司法人工智能的基本原理
      人工智能的基本想法,可追溯至逻辑学家艾伦·图灵(Alan M. Turing)于1950年发表的经典论文《计算机器与智能》。这篇论文试图进一步发展一个早已被哲学家霍布斯(Thomas Hobbes)所提出、并为逻辑学家哥德尔(Kurt G?del)所证明的主张:推理=计算。由此,形成了后来的人工智能研究者们所共享的一个基本假说:不仅推理可以转化为计算,而且其他种类的“智能”,包括决策、学习、理解、创造等,都可以转化为计算。为了对这个假说进行“科学确认”,图灵提出了一套检验方法,即让一台计算机和一个人分处于两个房间,他们与外界的通信仅限于文字交流,由房间外的人类裁判者提问,他们各自来作答。如果裁判者不能分辨哪个房间里是计算机、哪个房间里是人,那么就可以认为计算机已具备人的智能。这就是著名的“图灵测试”。而最近,国外的两位认知科学家通过测试证明,大语言模型已通过“图灵测试”。
      “图灵测试”蕴含着这样一种“信息处理观”:一方面,人工智能的研究范围仅限于信息处理。也就是说,人工智能系统所做的一切,都是先由外界提供预定格式的信息,然后对这些信息进行加工处理,再将加工处理后得到的结果表达成预定格式的信息向外界输出。因此,推理、决策、学习、理解、创造等,在人工智能研究中通常只被作为信息处理的具体类型来对待。另一方面,人工智能系统直接关注的外部对象只有人,它与其他外部对象(现实世界中的万事万物)并不直接发生关系,而只能借助于人类与它们发生间接关系,例如在与人的交流中谈到一些事物。这意味着,人工智能系统只拥有关于现实世界的知识(数据),而对现实世界本身一概不管。
      在这一基础上,早期基于预训练语言模型的司法人工智能将开放的司法数据经过自然语言处理后,输入机器学习的算法之中,得出一种或多种用于预测案件胜诉或败诉可能性的模型。与此相比,今天的司法人工智能得到了大语言模型的加持。大语言模型的能力,源于它对海量文本数据中蕴含的“统计规律”的学习和掌握。它可以从数据中学习到词汇的搭配规律、语法的规则、句子的结构、篇章的组织方式,甚至能解读一些常识性的知识和简单的逻辑推理。正是基于这些“统计规律”,大语言模型才能生成自然流畅、语义连贯的文本,与人类进行自然的对话交流。相比于预训练语言模型,大语言模型包含数百亿或更多的参数,因而大幅扩展了模型体量、预训练数据量和总计算量,可以更好地根据上下文理解自然语言并生成高质量文本。它基于神经网络模型而产生,具有小模型不具有的“涌现能力”。但无论如何,任何语言模型背后的基本原理都是相似的,即基于历史数据中出现的语词的概率,预测每个词(句子、段落)后面的下一个词是什么(预测即生成)。这体现在,在预训练过程中,大语言模型通常会采用掩码语言建模(好比“完形填空”)和自回归语言建模(亦即“文本续写”)。这意味着,即便是大语言模型的“智能”也仍然是一种“基于记忆而非理解”的智能,它的知识在根本上是一种“压缩失真”的知识。大语言模型的本质是一场跨越数字与文字维度的转换实验。同理,司法人工智能的目标并非复现法律推理,而是寻找和建立判决中各个数据参数间的相关性。因此,司法人工智能所做的工作无非也是信息处理,即根据历史裁判数据的统计规律预测或者说生成当下的数据。
      (二)司法人工智能的根本缺陷
      但是,根据历史裁判数据的预测不等同于司法裁判本身,计算也不等同于推理或论证。
      其一,司法人工智能只能进行“语词”的生成,无法进行真正的语言活动。论证是一种语言活动,而语言是一个自身内在具有自反性(先验自反能力)的系统。一种语言必须能够自己解释(解码)自己的所有组成元素,必须能够说明自己所包含的每个词汇和每句话的意义。而人工智能运用的思维材料只是“标识”(token),它通过大数据学到的,不是有着人文和知识意义负荷的语言,而是由无数关联性或无穷可能链接构成的标识系统(语词)。人工智能有能力发现标识之间的最大可能关联,并在它们之间建立起大概率链接,但它并不能理解其中的含义。
      其二,司法人工智能只能建立数据之间的相关关系,无法建立司法裁判需要的因果关系和归属关系。司法论证包括两个步骤:一是将证据事实与案件事实通过因果关系联结起来,二是将案件事实涵摄于规范的构成要件之下,并将规范规定的法律后果与案件事实通过归属关系联结起来。这两种关系反映出司法裁判论证说理的特性:因果关系提供的是说明性理由(即为什么出现了符合构成要件的事实),归属关系提供的是规范性理由(即为什么应对这一事实赋予特定的法律后果)。而司法人工智能其实是将这两个步骤简化为数据关联,即把特定案件事实(输入值)与特定法律后果(输出值)直接联结起来,并将这种联结上升为通则性的算法规则。这其实并不是“推理”,而仅仅是将它们视作相关的两组数据。因为大数据只要“知道是什么就够了,没必要知道为什么”,但司法裁判却不能放弃对“为什么”的追问。
      其三,司法人工智能只能进行二维演算,无法实现三维的程序正义。对于司法裁判而言,相比于得出特定裁判结论本身,达成这一裁判结论的程序同样重要,甚至更加重要。法律论证是一个受程序性规则导控的主体间论辩活动,说理表达的是对程序参与者之主体性的尊重:之所以要对当事人施加特定法律后果,是因为存在规范和事实上可被接受的理由,而非仅仅出于司法机关的权力行为。因此,“司法的剧场化”十分重要,司法说理的过程及其展开是程序正义的重要体现。而司法人工智能将司法裁判从立体时空中展开的真实活动降格为平面空间内的数据运算,使得平面化的机器决策不断侵蚀立体化的人类决策。当人类将技术手段、数据与自动化决策当作司法实务运行的主要手段时,人类在司法活动中会愈发依赖技术而逐渐缺乏主观能动性。
      其四,司法人工智能只能进行价值的表述生成,无法进行真正的价值判断。法律推理活动中不可避免地留有价值判断的余地。人类的价值判断具有自主性,它不依赖于外部的“输入值”,其根本原因在于人类拥有自由意志。但人工智能在本质上是一套运算程式,它只能根据人类的价值表述(输入值)来生成新的价值表述(输出值)。因此,人工智能无法对司法裁判所面对的诸多人和事进行评价。这意味着,人工智能技术本身无所谓善恶,是人对它们的应用方式决定了它的善恶。大语言模型给出的回答会不会对人有害,这完全取决于人类建立的知识库是否包含可能隐含不良后果的知识。人工智能并不具备自主的价值判断能力。
      对于以上观点,相信没有任何严肃的技术专家和人文社科学者会予以否认。人类的司法裁判之所以具有其独特意义,恰恰在于其说理和论证的特质。以机器算法为基础的司法人工智能之所以永远无法完美“拟合”真实的法律推理过程,就是因为它试图用规律化的算法预测来取代规范性的裁判证立。论证和说理的背后是责任,故而问题的关键在于:当事人应否将自己的命运交给机器?法官应否将自己的裁判责任推给机器?如果司法涉及的是对人类自身事务的决策权,那么这种决策权就不能因数字技术的发展而被剥夺,哪怕它再高效。司法是人类为维护人类社会有序运行而应尽的责任,这种责任不容推给机器。在此意义上,如果我们依然珍视和坚守司法裁判作为一种负责任之说理活动的特性,那么法学方法论就不应丧失其运用的空间。以上判断建立在一种规范主义的立场之上。这意味着,即便今日之司法人工智能的结论与人类法官运用法学方法论所获得的结论完全相同,也不应当去运用前者。这是一个可欲性或应然的问题,而非现实性或实然的问题。
      但是,源于图灵测试的人工智能(也包括司法人工智能)恰恰秉持的是一种功能主义立场,采取的是“功能至上”的思路。这种思路认为,真正的问题并不在于机器是否具有意识或理解能力(如果我们以人类的意识或理解能力为标准的话,那么机器无疑没有意识或理解能力),而在于基于生成式人工智能的司法活动自动生成的司法产品(各类司法文书),是否能达到与人工法官运用法学方法论生成的司法产品同等的质量。从这种思路出发,“问题的关键,不在于机器是使用代码还是自然语言、基于概率运算还是情感因素来处理人类提出的任务,而在于它在任务执行中的表现是否足以让我们将人类的某种思维方式或者理性成就合理地归属于人工智能,以及它是否实现了与理性思维相同的实践效果。”这意味着,以基于大语言模型的司法人工智能不会“论证说理”来为法学方法论的运用进行辩护,这条“应然进路”未必能获得所有人的赞同。反对者会坚持“实然进路”,主张将“相同的实践效果”作为评价司法人工智能的根本标准。因此,我们需要进一步来思考,从可行性的角度看,基于历史数据的裁判预测能否取代法学方法论的具体功用?这需要从事实认定与法律适用两个方面来考察。
      二、司法人工智能的事实认定难题
      如前所述,大语言模型只能与人类打交道,只能搜寻和分析被人类录入数据库中的电子证据,无法真正像人类法官那样调查取证和对实物证据进行分析。它只会“言说”,不会“行动”。抛开这一点不谈,在案件事实的认定过程中,司法人工智能也存在很多无法克服的难题。案件事实需要得到证据材料的支持。我们可将事实认定的过程分为两个阶段,即从证据材料到证据事实的阶段,以及从证据事实到案件事实的阶段。无论在哪个阶段,大语言模型对现实的认知能力都存在局限。
      (一)对现实的认识能力局限
      在从证据材料到证据事实的过程中,存在着只有人类才能把握的认识论空间。
      一方面,证据事实的形成包含着“必要的判断”。这些“必要的判断”包括以感知为基础的判断、以对人类行为的解释为基础的判断、其他借助社会经验获得的判断等。这是因为,事实首先涉及实际的事件或状态,但关于事实的陈述通常以感知为基础。判断者以自己的感知或者大多数情况下以告知事实的人(证人)的感知为基础,来作出事实陈述。个别的感知会以日常经验为基础联结成观念形象(例如感知到在无云天际的水平线上有黑暗的形体存在,进而将其解读为“山脉”)。这个过程已经插入了某种“解释”。没有这种感知与“解释”,就无法从客观世界中存在的证据材料出发,形成作为语言陈述的证据事实。这是因为,证据材料属于客观存在物,即属于本体论的范畴,是可被人类直接感知的实体;而证据事实属于认知论的范畴,是通过命题的方式表现出来的思维语言的构造物,表现为事实命题。判断者的感知就是从本体论到认识论、从经验到语言的“转换器”。这种感知是人类的直观能力的体现,无法被转换和解析为各种“标识”。但是,离开第一性语言游戏是无法进行第二性语言游戏的。从对外部世界的体验、解释和判断转化为语言陈述的过程,只能由人类来完成。例如,只有真实感知到了“山脉”的存在,人们才会作出“远处水平线上存在山脉”的陈述,他人才能基于这一陈述作出别的陈述。同理,如果没有人类法官对于证据材料的感知并通过语言将这种感知转化为陈述,进而将这种陈述作为数据输入,那么大语言模型就无法生成或预测下一个陈述。例如,离开现场勘查人员在犯罪现场找到的被告人的指纹、脚印、毛发和血迹,以及作出的“犯罪现场留有被告人的指纹、脚印、毛发和血迹”的判断,就无法得出“被告人到过犯罪现场”这一证据事实(事实命题)。
      另一方面,对于证据材料也要进行认识论上的检验。证据材料包括相关性、真实性和合法性三种属性。其中,相关性和真实性属于认识论层面的问题,而合法性则属于评价问题。这里涉及的主要是认识论问题。首先,机器算法无法很好地判断证据材料的相关性。“相关性”判断需要以人类的日常生活经验(常识)以及基于常识的“解释”为前提。例如,对于甲欠乙5万元钱这一事实主张而言,甲和乙的“合影”并不是证据,“欠条”却是证据。人类法官都知道这一点,但大语言模型却不知道。当然,如果之前的数据库里不断同时出现“欠款”和“欠条”,那么算法的确会基于概率而在两者之间建立起相关性。但问题在于,生活中总是会出现数据库中不存在的新事实或新证据,例如能够证明甲欠乙5万元钱这一事实的证据不是欠条,而是一段微信语音。人类法官基于对微信语音内容的判断,能迅速把握欠钱的事实,而大语言模型即便能将语音转化为文字,也很可能无法建立起它与欠款的事实间的联系。毕竟,大语言模型无法“理解”这种新的微信语音内容,离开过往的数据及其有规律的关联,微信语音对于算法而言就是无意义的空气振动。其次,机器算法也无法判断证据材料的真实性。大语言模型所依托的数据世界是由人类来构筑的,而人类输入的数据有可能是假的。即便是假的数据,也会被当作其生成新数据的前提,因为大语言模型本质上是生成模型,它的任务是生成语言,而不是检索和调用以往的准确信息。故而,大语言模型生成的文本中经常会包含一些不实信息。这就是所谓“一本正经地胡说八道”和机器“幻觉问题”。对于作为输入数据的证据材料的真假,只能交由人类法官通过内心确信来判断。
      因此,在从证据材料到证据事实的过程中,存在着只有人类法官才能把握的认识论空间。法律上之所以要为事实认定设计特定的程序,将事实认定分成若干审查判断阶段,每个阶段针对证据评价又设置不同的规则,就是为了保证对证据事实进行认识和推论的准确性:通过审查和筛选排除伪证,确保作为定案根据之证据事实的真。作为一种在“二维空间”里展开的活动,大语言模型很难在模态众多的证据材料(例如文本、录音、视频、图像)中提炼出关键信息,很难理解每一个材料对于判断行为性质的意义,很难辨识证据的真伪,更难以基于对这些材料的理解形成整体判断。在此,法学方法论中的证据资格规则(例如传闻证据排除)、证明标准理论(例如高度盖然性)反而能为算法决策提供校验标尺,防止技术系统陷入“数据暴力”误区。
      (二)对评价余地的应对不足
      证据事实本身并非案件事实,而是证明或推导案件事实的基础。例如,“被告人到过犯罪现场”只是证据事实,但它却是“被告人可能卷入犯罪”这一案件事实的基础。在从证据事实到案件事实的推导过程中,存在着证据法、实体法和程序法上的评价余地。
      首先,存在着司法人工智能无法应对的证据法上的评价余地。例如,从“被告人到过犯罪现场”到“被告人可能卷入犯罪”的推导,可能因为证人证言而被推翻。机器算法无法很好地应对这一点,因为在上述例子的背后,存在着物证与证人证言之间的证明力比较问题。证据的证明力主要是一个权衡和裁量的法律问题。机器算法自身无法进行这种权衡和裁量,除非预先就将权衡进行图式化,将裁量进行量化处理。例如,基于对历史裁判数据的概率统计,从一开始就设定“证人证言优于物证”的规则(规律)。但问题在于,在实践中,总是有各种各样的证据及其组合关系,需要法官进行综合判断和权衡。例如,白天近距离看到“被告人到过犯罪现场”的证人证言,与夜晚远距离“看到”“被告人到过犯罪现场”的证人证言,其证明力大小有可能不同,与物证之间证明力强弱的比较也可能不同。故而在根本上,证明力比较是无法作图式化和量化处理的。此外,合法性也影响着证明力的判断。人类法官能够根据证据规则对已具备相关性和真实性的证据材料进行审查,排除不具有合法性的证据材料的证明力,而大语言模型则无法做到这一点。当然,与相关性一样,机器算法的确可以预先设定对数据库的审查机制,将不符合证据规则的证据事实“删除”。但问题在于,像“传闻证据”和“刑讯逼供所得的口供”这类证据本身就是人类在感知客观事件的基础上经过“解释”的产物。机器算法自身是无法将特定陈述判断为“传闻证据”和“刑讯逼供所得的口供”的。只有在人类法官作出这种判断(给证据数据“标注”后),它才能根据预先设定的指令“删除”这些陈述。此外,合法性也存在程度问题。合法性的程度影响证明力的大小,这方面的典型例子就是瑕疵证据规则。例如,讯问笔录未签名和未告知嫌疑人相关权利义务,合法性瑕疵程度不同,相关陈述的证明力大小也就不同。但瑕疵证据在多大程度上会影响其证明力,又是一个无法由机器量化处理的判断问题。
      其次,存在着司法人工智能无法应对的实体法上的评价余地。案件事实的最终形成,是运用法律规范对生活事实进行重构后的产物。在案件事实的形成过程中,规范可能需要被解释,要件事实可能需要被剪裁,规范与事实不断发生互动和循环。在这整个过程中,裁判者的“目光在大前提和生活事实间往返流盼”,寻找着构成要件与生活事实之间恰当的均衡点,最终形成个案事实。所有经法律判断的事实,都不仅仅是单纯的生活事实,而是在考量法律上的重要性后,对生活事实进行选择、解释及联结的结果。只有考虑到可能作为裁判依据的法条,关于案件事实的陈述才能获得最终的形式。这意味着,只有符合实体法构成要件,证据事实所证明的事实命题才能成为案件事实的组成部分。这种“符合性判断”往往涉及对法律规范本身的解释,充斥着价值判断。当法律规范中包含着“过错”“恶意”“显失公平”等评价开放的概念时,这种评价性色彩体现得尤为明显。而机器算法无法进行恰当的价值判断。例如,我国目前在某些法院试点的“智能全链条要素式审判”,虽然有助于法官快速有效地掌握类案难点,但要素的外延呈现出不确定性。这是因为某些规范性概念在具体事实上的拓展和延续,具有一定的选择性和弹性。再如,在提交给DeepSeek的一个案例中,提问者问,有家庭暴力行为的丈夫与有婚外同居行为的妻子在离婚时,谁有权主张损害赔偿,大语言模型给出的答案是“妻子有,而丈夫没有”。然而,根据《最高人民法院关于适用〈中华人民共和国民法典〉婚姻家庭编的解释(一)》第87条的规定,有权主张损害赔偿的主体是离婚诉讼中的无过错方。而在本案中,显然夫妻双方均存在过错。可见,大语言模型在这里并没有真正理解“过错”的含义,从而仅将“家庭暴力”单方面与该概念关联起来。因此,在某种意义上,案件事实的形成是“法律建构事实”的过程。在这一过程中,法官要把已确定的证据事实归属于有关法律规范的调整范围,通过对证据事实进行法律上的评价和断定,形成一种获得法律定性的案件事实,即要件事实。但是,由于无法理解法律的意义(法律语词背后的价值判断),机器算法无法基于证据事实形成恰当的、具有法律意义的案件事实。
      最后,存在着司法人工智能无法应对的程序法上的评价余地。经实体法评价的要件事实有可能是复数的,因为原告和被告、检察官和犯罪嫌疑人(及其辩护人)都可能从自己对于案件的理解出发,通过选择不同的法律规范及其构成要件,重述和剪裁出不同版本的要件事实。故而,必须在此基础上将要件事实进一步重构为唯一的案件事实。在当事人陈述的多个要件事实的基础上,只有经过程序法(诉讼法)规定的举证、质证等程序,由裁判者通过法定程序认定的事实才能最终成为案件事实。由于它是司法裁判的基础,也可被称为裁判事实。很显然,由于机器算法只能进行平面化的语言(语词)活动,而无法在程序活动中让不同的主体对证据进行交叉质证,以及对于不同版本的案件事实进行交锋和论辩,故而也就无法将程序正义的要素吸纳进裁判事实之中。
      综上,在从证据材料到证据事实的过程中,机器算法既无法作出感知等“必要的判断”,也无法很好地判断证据材料的相关性与真实性,故而在认识能力上存在局限;而在从证据事实到案件事实的过程中,司法人工智能同样无法恰当应对来自证据法、实体法和程序法的评价余地。还需指出的是,在案件事实的认定过程中,各种评价活动并非彼此孤立,往往是交错进行的,其间充斥着诸多的互动和循环。机器算法试图将复杂的评价过程化约为简单的概率预测(生成),但这无论如何都难以成功。因此,在案件事实的认定领域,依然存在法学方法论发挥作用的空间。
      三、司法人工智能的法律适用难题
      法律适用活动可分为依据法律的法律发现(Rechtsfindung secundum legem)、超越法律的法律发现(Rechtsfindung praeter legem)和反于法律的法律发现(Rechtsfindung contra legem)三种。第一种涉及法律解释,后两种涉及法的续造。司法人工智能是否会消除法律解释和法的续造的空间呢?
      (一)司法人工智能会消解法律解释吗?
      依法裁判是司法裁判的基本义务,而涵摄是法律适用的基本模型,它要求将特定案件事实归属于法律规则的构成要件之下,以得出特定法律后果。但是,抽象的构成要件与具体的案件事实之间总是存在落差。传统上,法律解释就是填补这种落差的方式。而法律推理的计算模型将使用从案件判决和法规之类的法律文本中自动提取的信息,以帮助人们回答法律问题、预测案件结果、提供解释,并比现有技术更有效地做出支持或反对法律结论的论证。换言之,它可以基于规则和类似案例的信息来自动生成结论,因为机器算法能够基于既有的输入数据(规则和案例)生成输出数据(裁判结果),它能自动搜索到相配的法律规则和过往的类似案例。这是否会带来一种“无须法律解释的法律适用”,从而使得各种法律解释方法无用武之地?
      在计算模型之中,法律规则与案件事实之间的落差,很大程度上是由先例这种历史裁判数据填补的。更准确地说,是由先例确定的解释性规则或个案规范来填补的。此时的法律规则是“已被解释之法律条文”,对于法律规则的每个构成要件特征而言,在历史性的司法数据中已经存在解释。这看起来的确会压缩法律解释方法的运用空间,因为一旦先例在这里起到了补充性法源的作用,也就剥夺了待决案件的法官运用法律解释方法的机会。例如,如果数据库中的先例已将“地域歧视”解释为我国《就业促进法》第26条规定的“就业歧视”,那么当再次发生招聘单位以地域事由对当事人实施不合理差别对待的案件时,直接参照先例即可,无须再运用各种解释方法对“就业歧视”进行解释。因此,看起来大语言模型的自动化“推理”与法律解释方法的运用空间之间就存在此消彼长的关系。
      但是,这种用历史裁判数据或先例使法律解释固定化的方式,会遭遇下列困境:
      其一,难以保证有不同于先例确定之解释性规则的新解释出现。案件是在具体的历史时空中发生的,观点也会随着时代发展和社会环境的改变而发展,人类的解释活动深嵌于生活形式和历史条件之中。但大语言模型不需要历史意识,不需要国家,甚至不需要社会,它要做的只是程序运行和结果输出。因此,它只能维持先例所确立的对构成要件的特定解释,却无法提供因时代发展和社会环境的改变带来的新解释。例如,在全国首例“隐形加班劳动争议案”中,法官突破《劳动法》中关于“工作时间”的传统界定,认定下班后通过微信等社交媒体处理工作属于“实质性劳动”,从而保障了劳动者的“离线休息权”,也推动了劳动法领域对数字时代工作形态的规则完善。与此相比,大语言模型并没有这种创造性解释的能力。
      其二,难以保证先例确定之解释性规则不会出现例外。大语言模型很大程度上能保证同案同判,但忽略了差异化判决的正当性。差异化判决的正当性来自诸多原因。例如,虽然待决案件与先例完全符合法律上的“同案”标准,但待决案件具有额外的细节特征,而这种细节特征恰恰要求待决案件作不同对待。或者,由于时代环境的变迁和相应价值观点的改变,待决案件与先例虽然并无细节特征上的差异,却要求对前者作不同的处理。例如在1896年普莱西诉弗格森案(Plessy v. Ferguson)中,美国联邦最高法院对美国宪法上平等权的解释(“隔离但平等”),在1954年布朗诉托皮卡教育委员会案(Brown v. Board of Education of Topeka)中被改变(“隔离的教育设施本质就是不平等的”)。这里面无疑有社会观念变迁和黑人平权运动作为历史背景。但只有数据库作为“世界背景”的大语言模型,无疑无法感受到这种社会观念的变迁,从而及时作出解释观点的调整。
      当法律规则中存在不确定的法律概念时,大语言模型的局限性体现得更加明显。相比于确定的法律概念,不确定的法律概念拥有更明显的“开放结构”,更难为其确定解释性规则。当然,人工智能法学研究者不是没有为此做过努力。早在20世纪80年代,安娜·加德纳(Anne von der Lieth Gardner)就曾以“要约承诺”相关法律领域为例,为通过不确定的法律概念进行的“推理”建立过一个计算模型。为此,她设置了一套程序性知识,包括:(1)关于要约和承诺之教义的重述式规则;(2)一个表述不同状态和状态之间转换的“网络”,当事人在其中能够处于要约和承诺的地位;(3)相关的常识性知识;(4)某些关键概念的典型事实模型(先例)。其中,(1)和(4)属于“范例”知识,而(2)和(3)属于“非范例”知识。司法人工智能将司法裁判的重心置于对过去裁判的模仿上,持一种历史决定未来的思路,而这种思路符合人工智能成果的技术条件必须符合的封闭性准则。但问题在于,所谓非范例知识永远无法被完全范例化,因为范例化的前提是知识的封闭性,而非范例知识是不可封闭的。尤其是人类并不很难获得的“常识性知识”,对于机器而言,这意味着算法没有明确的学习任务(确定的结果变量)以及需要学习的训练集(训练数据)。或者说,训练集是整个社会,无边无际。
      反过来看,各种法律解释方法在功能上能否由机器算法来替代?答案也是否定的。
      其一,机器算法通常只能进行语义的确认(Feststellung),而无法进行语义的确证(Festsetzung)。法律解释大体可分为语义的确认与语义的确证两个层面。文义解释是比较简单的语义确认活动,它通过语言使用规则直接划定词项的外延,从而对事实对象是否属于该外延作出非此即彼的清晰判断。例如,我国《民法典》第1176条关于自甘冒险的规定适用于自愿参加“具有一定风险的文体活动”,它通常指的是此类活动具有一定的内在的固有风险,能够产生对他人的损害。按照这一定义,球类运动、武术散打、杂技表演等无疑属于这类活动,而跳广场舞、转呼啦圈则无疑不属于。就此而言,大语言模型的确能帮助人类法官“发现”既有的语言使用规则(规律),从而在此意义上提供文义解释。但在上述例子中,如果具体情形是一位年轻人应邀参加登山活动,因与其他共同登山者打赌谁先登上山顶,结果在登山期间失足摔伤,此时是否属于“具有一定风险的文体活动”就无法作非此即彼的判断了。因为此时不存在明确的语言使用规则,而需要通过其他途径,例如资料查找、考据、证明甚至是推导,来作出判断。这将会运用到发生学解释、体系解释、历史解释、比较解释和客观目的解释,即各种语义的确证方法。显然,大语言模型无法自行进行这种具有论证色彩的语义确证活动。
      特别是,客观目的解释无法被模型化,因为它的基础在于法律文本的规范目的与社会功能。客观目的解释并不以任何规则化的认识和支撑性材料为依托,而是运用普遍实践论据的理性论证,具有纯说理的色彩。例如,在一个著名的案件中,德国联邦宪法法院通过对《德国刑法典》第223条a款的规范目的的认定(针对更具危险性的行为施加更严厉的惩罚),将得到主人指令去咬伤他人的狗解释为该条规定的“危险工具”。有时,解释者还要从法律文本在社会中的功能(社会目的)或者说特定解释可能导致的社会后果出发,来对解释进行证成,此时就可能需要获得法社会学知识的帮助。司法人工智能虽然可以通过自然语言处理技术实现法律文本的结构化解析,但却无法对法律文本背后的规范目的与社会功能进行结构化解析。
      其二,机器算法无法作出关于法律解释合理性的判断。或许有论者会指出,大语言模型建立在大语料库的基础上,故而司法人工智能依赖的数据不只有法律规则和先例,也包括其他支撑性材料,例如相关立法材料、历史沿革文献、比较法资料等。这当然是可能的。但是,一方面,要考虑到特定支撑性材料(例如关于法律草案的内部讨论纪要)能否被公开而成为语料库的一部分这一技术问题;另一方面,更要考虑到,任何法律解释方法的运用,都有其无法回避的“合理性界限”。即便特定解释方法是从相关权威材料出发的,也不能免于对相关材料之现实效果的评判。这构成了任何解释方法的内在界限。以发生学解释为例:这种解释方法并不止步于对立法原意的发现,立法原意在解释中要被再判断或评估,以导向对法律规范的合理解释。就像有学者指出的那样,发生学解释“于社会情况已有变迁时,应依社会现有的观念,就立法资料的价值予以评估,而不能以立法当时社会所存的观念评估”。这说明,不能把从立法历史资料中寻到的立法原意绝对化或片面化,而应根据社会现实的变化对历史观点审慎判断。例如,在我国《民法典》颁行前,根据《民法通则》的立法原意,“以营利为目的”是侵害公民肖像权的要件之一。然而,随着社会生活变化,尤其是网络技术的发展,侵害肖像权的行为多已不再“以营利为目的”,因此就有必要根据社会现实的需要排除发生学解释的结论。这种合理性判断,在性质上属于机器算法无能为力的价值判断。
      其三,机器算法无法对各种解释性论据的具体强度进行权衡。法律解释活动往往要运用各种解释性方法或论据来得出一个解释结论。当不同的解释性论据导致不同的解释结论时,还需要根据诸解释方法背后的法价值及其相互关系与实现程度,对它们进行优先关系排序。但要看到,这种排序是初步的、可逆的和推定的,其作用仅在于对解释者的具体权衡过程施加一种论证负担。法律解释的结论最终仍取决于不同解释方法的具体优先关系,即依赖于各种解释性论据在具体情形中的强度。例如,当不那么具有说服力的语言用法与明确的立法者目的相对立,或者程度较弱的语言或历史提示违背了明确的客观目的论结论时,裁判者就要在具体情形中对各类论据进行全面权衡,以得出最佳答案。而全面权衡是一种依托个案情境的复杂的、非规则化的价值判断,有时需要人类法官运用裁量权来决断。这无疑超出了机器算法的能力范围。
      归根结底,解释不是计算,而是一种创造性的精神活动。在很多法律解释活动中,解释者都拥有判断的空间,在这一范围内,不同的判断都是“可接受的”。以自动驾驶事故责任认定为例,即便算法可以对《道路交通安全法》第76条规定的“驾驶人”进行语义分解,也无法解决“高度自动化系统是否属于‘驾驶人’”的问题。在对这一问题的判断过程中,仍需人类法官提供体系解释(与产品责任法的衔接)和历史解释(立法原意的追溯),并进行价值衡量(例如生命权与技术创新间的平衡)。归根结底,法律解释并非纯技术活动,通过方法理性来保障公正的结论,正是法学方法论的目标所在。方法论的作用不在于抑制法官的创造性,而在于有序地导控这种创造性,使之在理性化的轨道上运行。而缺乏这种“受理性导控的创造性”,正是司法人工智能的缺陷所在。因为在根本上,司法人工智能进行的只是一种依据“规律”的法律发现活动而已。
      (二)司法人工智能能进行法的续造吗?
      法律适用活动有时要逾越法律文本的语义界限,进入法的续造领域。法的续造包括漏洞填补与法律修正两种不同的情形。机器算法能否胜任这两种情形中的任务?
      机器算法无法有效地填补法律漏洞。当出现法律漏洞时,法官需要去发掘相关法律背后的价值判断,也需要用社会经验来为相关案件提供恰当的解决办法。但是,这种法律漏洞的情形,完全超出了机器学习的能力范围,因为机器学习的结果不能超出既有的规则和先例。除非在历史裁判数据库中已经有先例运用过特定的漏洞填补方法,故而可以在类似案件中根据这个先例来解决问题。但这在根本上仍然是一种依据规律来作出裁判决定的活动,并没有进行创造性填补,也无法应对没有先例的漏洞情形。有论者认为,电脑未必不能进行法的续造,因为虽然电脑没有能力做真正的全新创作,但好的法的续造从来不是全新创作,反而几乎总是将已被法秩序所承认的命题推导适用到其他的事物范围。这里暗指电脑有可能进行类比推理。真的是如此么?在算法中加入类比推理,至少需要两个前提:它应该能够使用程序员已经存储的类比算法来解决新问题,程序也应有能力为自己找到类似情形。为此,程序需要设定一些有限的概念的集合,以便可以在其中寻找到类似情形。因此,人工智能法律推理程序被限制在预先设定的类似维度上进行类比。但在现实情形中,很多出色的法律类比都是建立在一种人们可能想不到会将它应用于计算机系统的关系之上的。因为在根本上,类比推理的关键,不在于发现“更多的”相似性,也不在于构建“很多的”区分,甚至不在于找到“适宜的”相似性和不同点,而在于界定一个能够使相似或者区分的主张得以证立的原则。但原则的界定属于评价性事项,而评价性论证独属于人类的能力范围,这是计算机程序无能为力的。因此,类案推送系统虽能实现80%常见案件的自动匹配,但面对“元宇宙虚拟财产继承”等新型案件时,算法的数据依赖性也会形成认知盲区。这一点,对于目的性扩张来说也是如此。例如,在杭州互联网法院2022年审理的NFT数字作品侵权案中,法官通过“禁止权利滥用原则”对《著作权法》进行目的性扩张,就展现出人类法律思维在规则续造中的不可替代性。
      同理,机器算法也无法恰当地进行法律修正。法律修正的典型方法是目的性限缩,即把由于规则明确的文义过宽而导致适用范围过大的法律规则,限制在根据立法目的或其意义脉络的适用范围内。这说明,法律规则文义的约束并非绝对,有时为了追求实质正确的判决,可能突破文义的框架。例如,德国联邦最高法院曾根据《德国民法典》第181条的立法目的,对该条关于“禁止自己代理”的规定进行限缩,从而将“使本人纯获法律上利益”的行为排除在外。显然,除非历史裁判数据库中已有先例运用了特定的目的性限缩(从而将其转化为既有的裁判数据),否则机器算法本身无法进行这种“目的性”或“意义性”的判断活动。对于基于一般原则的法律修正而言也是一样,这尤其体现在法律体系功能变迁的场合。很多时候,虽然法律文本没有改变,但如果法律文本身处的“社会图景”(规范领域的普遍事实或经验命题)发生变化,也会引起法律体系的功能变迁。在发生功能变迁的场合中,新的制定法往往会凸显出针对特定专业领域的立法者目的和价值判断,而这些立法者目的和价值判断又与针对其他专业领域的、体系上相关的旧规定的目的相冲突。当上述冲突十分严重,以至于新变迁的重要性超过了对旧规范的理解变迁所引起的不安定性时,就要对旧规范的适用范围进行限缩。例如,在第一次世界大战后的经济萧条时期,德国法官多次运用《德国民法典》第242条(诚实信用的规定)来限缩甚至否认制定法规定的权利。这是因为战后德国陷入通货膨胀,“马克就是马克”的货币法则已无力应对困难时期。大语言模型无法觉察到这些不断变动的“社会图景”和法律体系的功能变迁,因而无法作出法律修正。
      无论是漏洞填补还是法律修正,事实上都深入到了“规则命题”背后的“社会命题”。规则命题能够在法律职业群体表述法律规则的渊源中找到,而社会命题是道德命题、政策命题和经验命题。它们构成了法律命题的理由,但不见诸任何文本或数据库。机器算法能够利用规则命题(或更准确地说,是规律命题)来生成答案,却无法“理解”和“运用”社会命题对规则命题进行恰当的扩张或限制。在根本上,法的续造是一种人类决策。人类决策是有意识的内容生成,在规则理解、价值判断和司法经验上反映着人类理性和人文精神,而机器则是依概率猜测的内容生成,算法决策很难作出伦理道德、善良风俗和经验理性等方面的考量。可见,大语言模型在司法裁判活动中更多承担的是“知识图谱建构者”的角色,而价值判断、利益衡平、政策考量等法的续造的核心任务,仍需由人类法官运用法学方法论来完成。
      四、数字技术能为法学方法论带来什么改变?
      不可否认,司法人工智能为法学方法论的运用带来的最大红利是效率的提升。一方面,区块链存证、人工智能证据分析等技术提升了事实认定的效率。区块链技术通过将数据分布存储于不同区块之中的多中心存储方式,可以有效解决单一账本的安全问题。司法数据库可以整合法院、检察院、公安机关、律所的数据,引入社会经济、人口统计、地理信息等外部数据,构建起案例数据库,帮助法官更全面地分析案件背景。人工智能证据分析系统可以帮助法官识别关键证据,分析证据链,加快分析和筛查电子数据中的文字、图片及影像等电子证据,提升调查效率。另一方面,自动化法律推理也提升了法律适用的效率。法律规则和先例的自动调取和匹配,使得法律适用的“范例化”和“规则化”色彩更浓,大语言模型使得立法材料、历史沿革文献和比较法资料等的获取更加便利。只要将数字技术作为司法裁判的起点而非终点,将机器算法作为法学方法论的辅助而非替代,那么司法人工智能的确可以发挥其促进法学方法论运用效率之提升的优势。
      除此之外,数字技术也会为法学方法论带来信息来源和具体运用样态的改变。在此仅以语料库语言学在法律解释中的应用为例。语言的基本功能在于交流,而语言使用规则是特定共同体成员相互间交流的基本规则。语义解释就是对语言共同体语言使用规则的确认,或者说是根据被确认的语言使用规则来判断特定对象是否属于某个语词外延的方法。在司法裁判的语境中,这种语言使用规则可以是日常语言使用规则,也可以是法学上的语言使用规则。当法律运用日常用语时,一般应依照日常语言使用规则进行解释(日常含义)。但如果日常用语在法律语境中有其特殊的使用规则,或者法律运用的是专门法律术语,那么通常需依据法学上的语言使用规则进行解释(专业含义)。因此,在法律解释活动的开端,解释者就要探究待解释的表述通常在法律人中迄今为止是如何被理解的。传统上,语词的日常含义可以通过查找字典的方式来确定,语词的专业含义则通常需要根据专业书籍(例如法律专业词典、教科书)来确定。但问题是,语词的意义只能体现在人类交流实践的恒常运用中。随着运用实践的不断发展,语词的日常含义乃至专业含义都处于不断的变化之中。虽然词典提供了稳定、客观的语词使用规则,但它只是对过往语词运用实践的归纳总结,是对动态化实践的静态化固定,未必能真实反映语词在当下的真实社会实践面貌。尤其是在社会变迁剧烈的背景下,词典的定义在语境考量、词典选取、词义排序、权威性等方面必然会存在诸多问题。故而,词典所记录的“日常”语言使用规则,未必具有真正的“日常性”。
      但是,语料库语言学的出现弥补了这一缺陷。大语言模型建模的第一步就是建立语料库。语料库语言学是以语料库为基础的语义学研究方法,它通过自然语言文本的采集、存储、检索、统计、词性和句法标注、句法语义分析,将具有上述功能的语料库应用于语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域。在来源上,语料库语言学通过一定的采样标准,从各种领域和体裁中收集大量的真实语言文本。这些文本不仅涵盖了新闻报道、文学作品、学术论文等正式文体,而且还包括了日常对话、社交媒体等非正式文体,从而确保了语料库的多样性和代表性。可见,语料库语言学优先考虑的是自然语言的具体实例和使用语境。随着自然语言处理技术的崛起,语料库的建设开始向标注和结构化数据的方向发展。它不再仅仅是单纯的文本集合,而是通过人工或半自动化手段为文本进行词性标注、句法分析、语义标注等工作,从而使得数据更为精细化和结构化。在此基础上,诞生了与通用语料库相对的专门语料库,例如法律语料库。通过多义性分析、语境消歧、概念关系建模、语义标签化与语义相似性计算等技术手段,法律术语在具体法律与案例中的专业含义可以被更准确地解析。
      语料库资源通过分析大量实际的语言数据,提供当下社会实践中语言使用的直接证据,有效弥补了传统语义解释中对“日常”含义把握不足的缺点。通过对不同语料类型(例如新闻报道、社交媒体、日常对话、判决文书等)的分析,语料库能够准确揭示特定语词在普通人群中的常见使用方式,真正从实际的语言实践中展现语词的日常含义,使其更符合社会大众的常识和预期。例如,美国学者曾对美国宪法上“言论”的概念进行语料分析,结果表明其外延不仅涵盖传统的口头表达,更延伸至数字化时代的表情符号传播与算法推荐内容。同时,大数据时代的语料库可随时进行全样本意义上的实时更新,具有不可比拟的动态性优势。由此,裁判者借助海量语言实例的统计,可以使法律解释真正体现语言共同体的共识,而非裁判者个人的直觉或者词典上的“教条式”内涵。容纳开放数据的语料库,能够及时捕捉到语词随着时间、文化背景和社会环境变迁而发生的变化。通过追踪这些变化,语料库为法律解释提供了更具动态性、更贴合时代发展的参考标准,帮助法律解释者确保其解读与公众对法律条文的理解始终保持一致。这又使得法律解释具有了民主的色彩。虽然目前语料库语言学仍存在缺陷,故而需经受裁判者的审查,但无论如何,它为传统的语义解释提供了全新的信息来源和运用样态。这提醒我们,未来的法学方法论研究应致力于打破法学与语言学、信息学的学科壁垒,推动数字技术与方法理论的深度融合。
      结语:算法与方法的相互增强
      司法裁判涉及复杂的事实判断、规则判断和价值判断,还需要不时根据社会经验和实践理性来创造规则、填补漏洞,而这几乎要调用所有最高级别的人类智能。因此,除非“奇点”(Singularity)被跨越,超人工智能时代来临,否则目前以大语言模型为代表的生成式人工智能依然无法在整体上代替完成人类法官的工作。
      司法人工智能是法律与科技深度融合的产物,但其本质上仍属于司法系统的现代化转型。法学方法论作为法律适用的底层逻辑,不仅不会因司法人工智能变得多余,反而会获得新的发展维度。一方面,司法人工智能实质是法学方法论的技术具象化,而非替代方案。技术工具解决了法律适用的计算性问题,但无法消解法律推理的论证性本质。由此,人工智能的目标就是协助,而不是取代。另一方面,司法人工智能的弱点也需法学方法论来补强。在脱离人为干预的前提下,机器算法只会维系、甚至放大人类既有的偏好,放任价值冲突现象的发生。这是因为,人工智能系统与人类一样都是“有限存在者”,这就使得其所获得的信念系统肯定会与世界本身有所偏差。而法学方法论是要限制法律适用者的主观偏好,使得对结论的论证尽量避免与法秩序产生价值冲突,引导法律获取的过程并保障法的安定性。因此,未来的人工智能与法学方法论应发展出真正的相互增强关系。毕竟,技术的革新不是对传统的背离,而是对方法生命力的重新确认。


    【作者简介】
    雷磊,法学博士,中国政法大学钱端升讲座教授,北大法律信息网签约作者。


稿件来源:北大法律信息网法学在线

原发布时间:2025/11/19 9:38:24

上一条:王禄生: 法律垂域大模型的存废之争、范式之议与能力之辨 下一条:喻 中: 习近平法治思想的历史贡献

关闭