前沿动态
司法文明协同创新中心的建设目标是按照“国家急需、世界一流、制度先进、贡献重大”的要求,依据科学研究、学科建设、资政育人“三位一体”的方针,打造中国乃至世界司法研究的重镇、中国司法学科建设的平台、卓越司法人才培养的基地、司法文明和法治中国建设的核心智库。
徐舒浩: 司法人工智能的理由模式及其功能限度
    【学科类别】人工智能
    【出处】《法学研究》2025年第5期
    【写作时间】2025年
    【中文摘要】人工智能通过学习案例语料库中的关键事实要素来模拟裁判理由的识别。案例语料库帮助人工智能学习理由的过程可通过理由模式加以描述,即借助理由的发现、理由分量的划定、理由的巩固,形成一套完备的“理由优先性秩序”,以促使办案模型降低决策误差率。鉴于这种理由习得模式的基础仅仅是案例语料库,而非包括法释义学在内的法理论,其本质是基于试错的试探性学习,而非理论指引下的自觉性学习,因此存在两个结构性缺陷:当法理论取得突破而未及时传导给司法实践时,办案模型无法及时更新以适应变革;当法律因增、改、废而发生复杂的内容变化时,人工智能无法自动识别这种变化引发的体系性效应。上述结构性缺陷的存在表明,由人类搭建并改进法理论,再借助案例语料库将新的理由优先性秩序传递给人工智能系统,始终是督促人工智能适应法律革新的主要路径。
    【中文关键字】人工智能;数字司法;深度学习;理由模式;自动化决策
    【全文】


      拓展人工智能的司法应用,是我国的一项长期战略规划。早在2017年,国务院印发的《新一代人工智能发展规划》(国发〔2017〕35号)便明确提倡将人工智能技术深度融入司法场景,赋能办案行为。近年来,随着智能辅助办案模型在全国范围内普及应用,理论界和实务界对其功能边界、结论说服力的争议日益凸显,人们难以就办案模型能做什么、不能做什么达成共识。这种争议的根源在于,对人工智能决策内在过程的解释存在方法论上的困境。例如,有观点认为,司法决策是基于理由的说理过程,而机器决策依赖概率计算而非理由,这就从根本上质疑了人工智能决策过程的可解释性。
      人工智能决策是否依赖理由,直接关系到其能否被解释与信任,这使得基于理由构建司法人工智能的解释体系成为一项重要的理论任务。为此,本文尝试通过微观考察已部署的成熟办案模型,借助“理由模式”这一分析框架,澄清人工智能模拟裁判理由识别与运用的内在机制:人工智能通过学习案例语料库中的关键事实要素,完成理由的发现、理由分量的划定与理由的巩固,形成“理由优先性秩序”以降低决策误差率。这一澄清不仅能为人工智能司法决策的可解释性提供理论支撑,也有助于明晰其结构性缺陷,从而为改进司法人工智能提供方向上的指引。
      一、司法人工智能的决策机理:以辅助办案模型为例
      对于深入理解司法人工智能而言,围绕已部署的成熟模型展开研究乃是必不可少的路径。自2022年以来,上海市检察机关采用“一个罪名形成一个模型”的项目化运作模式,组织检察业务人员与技术公司展开对接,将特定罪名范畴内的同类型案件系统整合,构建形成专业化的案件司法数据库,并以此为基础搭建该罪名的智能化办案模型,典型如“危险驾驶案件全流程一网通办”模型。此类模型可以发挥多种功能,包括案卡回填、三书比对、审判监督、文书生成等。以上海市人民检察院研发的智能辅助办案模型作为考察样本,细致剖解人工智能嵌入司法办案的具体过程,有助于从微观层面把握司法人工智能的运作机理。因篇幅所限,本文将研究焦点限定于以自动化定罪量刑为主要内容的文书生成工作环节。
      (一)案件事实情节要素的提取与分类
      截至2025年2月,上海市检察机关已完成8个辅助办案模型与既有检察业务应用系统的融合部署,覆盖本市70%的案件总量。除法定例外情形,这些案件的相关法律文书均需通过辅助办案模型制作。办案人员依托智能辅助办案系统生成文书的操作流程大致可分为四步:智能辅助办案模式选择;起诉意见书解析;事实情节要素设置;辅助决策生成。
      办案人员进入系统内置的智能辅助功能模块后,可在法定条件下行使自动化决策拒绝权。例如,办案人员若认为案件存在刑事诉讼法第175条规定的存疑不起诉、第177条第1款规定的绝对不起诉,或第282条规定的附条件不起诉事由,有权手动调整案件处理设置,切换至传统办案模式。一旦选择启用智能辅助功能,系统将自动对侦查机关制作并导入系统的起诉意见书开展全要素结构化处理,自动识别和提取出该案事实情节要素数据。案件事实情节要素在自动化决策进程中具有基础性作用。所谓“要素”,特指能够影响法律结论的事实情节或事实陈述,它是人工智能所能识别的最小语义单位和意义片段。在机器辅助决策阶段,是否建议起诉、适用缓刑还是实刑、如何设置刑期、推送哪些历史司法数据等,均取决于本案所包含的具体要素。案件事实情节要素可分为三类:一是犯罪构成事实要素,二是通用量刑情节要素,三是特殊情节要素。其中的犯罪事实构成要素,以刑法及相关司法解释所明确的犯罪构成要件的要件事实为设置基准。通用量刑情节是指,在任何类型的犯罪中都会对量刑产生影响的情节,包括犯罪嫌疑人的年龄、前科类型、劣迹类型、是否自首、是否坦白、是否认罪认罚、是否累犯。特殊量刑情节要素,则根据不同犯罪类型的独特属性专门设置。假如办案人员对系统解析的情节要素无异议,可直接进入辅助决策阶段;当然,办案人员亦有权对系统解析的定罪量刑要素进行修正,或依据自行侦查、补充侦查获取的新情况,手动录入新增要素内容。
      在辅助决策阶段,决策模型将自动启动运算程序,针对案件是否起诉、是否适用缓刑及具体刑期等生成“建议结论”。此时系统呈现单一操作界面,该界面由两个功能分界面构成:一是“本案审查结论”分界面,其包含“起诉/不起诉”和“实刑/缓刑”两栏,系统会根据自动化审查结果,预先在对应的栏目中填好推荐结论;二是“量刑计算”分界面,其会展示各类量刑影响要素,每个要素均以幅度条的形式呈现,幅度条的位置直观表征相应量刑要素的严重程度等级,系统通过对起诉意见书内容的抓取与分析,自动生成幅度条的配置比例,并基于该比例完成刑期的量化计算。
      (二)基于要素的自动化决策
      办案模型是一个功能混合体,并非所有组成部分均依赖人工智能技术支撑。检察办案模型中最核心的部分,同时也是司法人工智能最关键的运行机制,是从事实情节要素设置到辅助决策所应用的算法体系。不过,该环节中的量刑计算依托明确的计算公式实现,这些公式作为线性函数内置于系统中,并不属于狭义的司法人工智能范畴。至于量刑情节具体能够增加或减少多少刑期,其计算规则通常明文规定于最高人民检察院的“量刑指导意见”以及各地的“量刑指导意见实施细则”等规范性文件中。例如,毒品案件量刑模型明确以各类型毒品折算为海洛因后的数量乘以一定的系数来计算刑期,帮助信息网络犯罪案件量刑模型以涉案手机卡、银行卡的张数乘以相应系数计算刑期。当两个及以上量刑情节并存时,亦有明确且为司法人员所理解的公式用于计算情节叠加后的刑期。原则上,系统只需要将这些计算公式编入计算机程序即可实现自动运算,不存在任何复杂的、不可解释的地方。
      真正需要运用人工智能技术的模块,是在剥离量刑计算部分后,专门针对起诉/不起诉及实刑/缓刑决定的二值分类模型,该模型仅就特定问题输出“是”或“否”的二元结论。实践中,除绝对不起诉、存疑不起诉及附条件不起诉案件不适用该模型外,相对不起诉案件通常要求启用办案模型辅助决策;而相对不起诉与起诉之间的选择属于裁量性判断,存在不确定性。如果涉及较简单的判断,辅助办案模型有时使用决策树算法对不确定性下的可能决策进行分类。对于复杂决策场景,辅助办案模型需通过深度学习进行全局性考量以确定最优决策权重集,这是让人工智能去学习类案司法决定与其背后影响要素之间的复杂函数关系。
      从办案模型决策的整个过程来看,当前采用的技术路径是,先对起诉意见书进行结构化处理,然后运用关键字段自动提取技术,自动识别和提取出关键情节要素数据。在承办人操作的界面上,这些情节要素会被区分为犯罪构成事实要素、通用量刑情节要素、特殊量刑情节要素,这三类要素共同对起诉与否及实刑适用与否的决定产生影响。深度学习算法的工作原理是:技术人员事先对某类案件的大量起诉书、不起诉决定书、认罪认罚具结书以及判决书中的“决定”部分进行标记,如标记为“起诉/不起诉”或者“有罪/无罪”,随后将这些司法文书集合构建为训练集;人工智能神经网络通过在训练集中持续试错学习,最终自主发现案件情节要素组合与司法决定之间的内在关联。形象地说,如果将办案人员处理案件的过程理解为,结合案件信息、基于自身的法律和道德认知,就是否起诉产生直觉性判断的过程,那么神经网络的任务就是解析这种“直觉”的生成机制,即识别其与哪些案件信息建立了隐性且稳健的关联。
      二、司法人工智能可解释性的裁判理由维度
      人工智能的技术路径不同,可解释性的程度也会存在差异。例如,若是采取“将某些特定案件类型的审理规则整理成为可编码的逻辑语句”的“专家系统”路径,或是(除集成学习与随机森林之外的)“决策树”算法,则相应的反思和解释过程就如同数学验算一般,均可被人类完整还原。鉴于前述辅助决策模型已采用基于神经网络的深度学习算法,此时可解释性问题的处理关键,不再取决于算法类型的选择,而在于如何使模型的学习过程具备可解释性。
      (一)模型自身的不可解释性
      有学者提出,可通过公开算法源代码、架构、参数及权重等方式,使申请解释者能够依据公开内容自主理解甚至运行算法,进而实现对模型的监督。这一思路面临的最大问题是,单纯的公开行为对“理解算法运行逻辑”而言,几乎无法发挥实质作用。对此,已有学者提供了强有力的理论论据。除此之外,还可从深度学习的技术原理层面提出相应依据。
      深度学习的技术基础是多层神经网络,其基本结构是输入层、(多个)隐藏层和输出层。隐藏层中每一个神经元都会学习一个简单函数,这些简单函数通过组合形成复杂函数。隐藏层的“层数”越多,神经网络的深度越深,最终构建的模型复杂度也就越高。若将司法活动中收集的信息与司法决定之间的关系理解为一种非单调、非线性的复杂函数关系,那么在未出现“过拟合”问题的前提下,神经网络习得的函数越复杂,其性能(如预测准确率)就可能越优。问题在于,多层神经网络究竟是如何通过建立复杂函数来提高正确率的?要解答这一问题,需首先把握“隐藏层”的技术特征。
      在多层神经网络中,每个隐藏层均由大量单元构成,每个单元都包含特定的权重参数。单元的输入值与权重相乘后求和,即可得到该隐藏层的激活值;当激活值满足预设阈值时,神经网络会将求和结果作为输出值传递至下一个隐藏层,并重复这一加权求和过程,直至到达输出层。这种包含多层神经网络的结构可被整体性地视为一个激活函数,该函数处理的是输入数据与输出结果之间的非线性映射关系。神经网络之所以能够从接收的数据中学习到有用且难以被完全归纳和规则化的事项,关键在于其学习过程的特殊性。深度学习依赖两种基本算法,即反向传播算法与梯度下降算法。其中,反向传播算法的功能是进行责任分配,梯度下降算法则用于明确每个权重的学习规则。训练一个神经网络必须同时运用这两种算法。
      具体而言,计算机工程师在训练初始阶段,会随机设定隐藏层的层数以及每个单元权重的初始值。之所以可以“任意地”设定初始值,是因为在训练过程中,经过标记的数据集会帮助神经网络逐步调整这些权重参数,而反向传播在其中发挥了关键作用。在训练之初,神经网络会不可避免地“犯错误”,反向传播算法的功能是“记住”错误并反向分配责任。如果说神经网络的正向运算流程是从输入层开始,经过所有隐藏层从左至右完成加权求和与激活,并将结果传递至输出层;那么反向责任传播则是根据预测误差从右至左逐层修改各隐藏层的权重值,再通过观察调整后的隐藏层激活函数的输出结果判断误差是否降低。这一过程会持续迭代,直至神经网络能够在每个训练样本中消除误差,从而得到一组最优权重参数。整个调整过程由机器自主完成,即计算输出误差并通过反向传播调整权重以降低误差的过程,需要计算机依托其算力基础自动进行反复试错与改进,其计算次数与复杂程度远超人类大脑的处理能力。降低乃至消除误差、实现对数据集的最佳建模,则依赖梯度下降算法的运行。简单来说,每当神经网络使用一组权重参数适配数据集时,都会产生一定误差。将这些误差汇总后可得到平方误差和(SSE)。通常认为,误差和越小,函数对数据集的建模效果就越好。理论上,平方误差和可在三维空间中表达为一个峡谷形的误差面,其中越靠近误差面底部,误差越小,建模准确性也就越高。因此,深度学习过程可被理解为在误差面上搜索最低点的过程。所谓“梯度”,指的是误差面上不同点之间的倾斜程度,梯度下降就是逐步逼近并最终到达该最低点的算法过程。
      每当机器运用反向传播迭代更新一次隐藏层的权重集,都可以被理解为神经网络在误差面上进行的一次移动尝试,这种移动可能导致误差扩大,也可能缩小误差,而只有缩小误差的调整会被系统保留,机器将在此基础上持续迭代优化,直至抵达误差面底部。有学者对此过程作出形象比喻:如同登山者因突发大雾被困山顶,而其越野车停于山谷,由于能见度仅为脚下一两米,登山者只能依据对坡度的即时判断摸索挪动,最终抵达山谷。神经网络的摸索过程与这位登山者如出一辙。这也表明,公开参数和代码对于理解神经网络的工作过程几乎没有实质帮助,即便控制学习活动的计算机工程师,也仅在训练初始阶段随机设定初始值,几乎无法全程跟进神经网络的自主迭代过程。更关键的是,神经网络只能在“试错”中开展试探性学习,这种独特的学习方式使得人类难以通过类比自身学习模式来想象机器的学习逻辑。神经网络的强大性能恰恰源于其“黑箱”属性。或者说,它之所以成为黑箱,就是因为通过反向传播试错和梯度下降修正得出准确权重集的过程,内含着人类根本无法加以验算的巨大计算量,而正是这种巨大的计算量确保了误差的最小化。有学者将此现象称为“算法的性能与它的可解释性之间的张力”。
      (二)以“理由”为核心的解释
      真正有意义的其实是可解释性的第二个维度,即裁判理由的可解释性。其核心预设是,司法活动需要围绕释法说理展开,决策者应当释明他作出的司法结论所依据的案件事实、所适用的法律条文和法律解释方法,以及所结合的天理人情、公序良俗等要素。倘若将这些应当阐释的事项还原为“理由”范畴,决策者需提供的是支撑其司法决定的法律理由、道德理由和政策理由。合理的解释本质上是一种基于理由的解释。正如有学者所指出的:对技术问题的解释,即智能系统是如何作出决定的,如果不能详细说明其推理过程,“至少应当作出局部解释和粗粒度的概括解释,而不能不提供任何理由。不难理解,一个附具‘理由’(reason)的法律决定才是合理的(reasonable)可接受的决定”。
      很多学者对司法人工智能提出批评,其核心原因就在于,他们认为司法人工智能在裁判理由层面缺乏可解释性,不具备将神经网络迭代过程转化为证成与说理活动的能力。这一批评可拆解为两个层次:第一,人工智能缺乏推理的思维,在应用过程中不存在基于逻辑与理性证明裁判结论的内在活动;第二,人工智能无法通过“给出理由”的方式实现对人的说服。当然,这两个层次是相对独立的,即便司法人工智能并未实际开展推理活动,它也可能具备从事说服活动的能力。例如,大语言模型已能依托“预测下一个词”的算法生成包含说理内容的文本、图表等,为裁判说理提供辅助支持。但是,批评者仍可声称,“预测下一个词”依赖的也是概率运算而非逻辑推理,无法推理仍是人工智能的根本局限。这一根本局限还可得到进一步阐释:机器学习算法的运作原理并非复现法律推理的逻辑过程,而是通过数据挖掘寻找办案行为数据、案件信息数据与司法决定之间的统计相关性。换言之,它本质上是用“可能性计算取代了规范性判断”。也正因此,人工智能无法真正“理解”其所处理的文书字段和语句的语义内涵,不具备人类所拥有的常情常理,更不能以人类的认知方式梳理事实涵摄于法律之下这一心灵活动的内在过程;在现有技术条件下,人工智能无法自发地产生具有主体性的“价值判断”,也没有能力进行复杂的利益衡量。毕竟,“价值权衡并非计算,无法被量化处理,也无法被代码化”。
      上述论证初看具有合理性。它抓住了机器思维与人类思维之间的关键差异,即机器无法理解并回应理由,而人类则是“理由的动物”,人类的决策依赖推理,人类裁判与机器裁判的核心区别,正在于“能否识别并运用裁判理由”。即便机器可以响应其用户的解释请求,生成听众所能够理解的解释性或对话性文本以介绍一项司法预测的理由,也依然不能消解人类与机器的本质区别:人类在得出结论时的推理过程与他为其结论辩护时展示的推理过程经常具有一致性和同一性;而机器得出结论的过程,与它为结论辩护的活动,则构成两个全然不同的活动,后者的实质是一个以“我如何更类人化地回应司法问题”为目标任务的大语言模型应用。如果这一推论成立,那么司法人工智能缺乏理由意义上的可解释性,便无疑义。
      遗憾的是,上述推论逻辑似乎陷入了再描述谬误的困境。倘若只是原原本本地陈述深度学习算法的学习目标、架构、参数、隐藏层数量和激活值等技术细节,那么面对隐藏层中数千亿的运算单元和它极端复杂的反向传播运算过程,去评价它们与人类理性推理能力究竟相似与否,并无实质意义,因为这是两个不同层次的机制。正如我们不会用人脑中数千亿神经元处理信息的机制来解释人类的宏观思维过程,同理,也不应该仅因算法本身所依赖的数学机制如此独特,就质疑它在宏观司法场景中的表现效果。问题的关键,不在于机器是使用代码还是自然语言、基于概率运算还是情感因素来处理人类提出的任务,而在于它在任务执行中的表现是否足以让我们将人类的某种思维方式或者理性成就合理地归属于人工智能,以及它是否实现了与理性思维相同的实践效果。
      从现有证据看,当下智能辅助办案系统的深度学习算法恰恰是在模式识别上找到了“理由权衡”的功能等价物,才真正实现了机器判断准确率的逐步提升。具体而言,司法技术团队对大量案件事实情节要素进行标记后,将其系统整合为标准化语料库用于训练机器感知司法理由的灵敏性。其中,犯罪事实构成要素、通用量刑情节要素、特殊量刑情节要素均是从法律文书中提取的情节“个例”,它们本身类似于人类权衡时所考量的具体理由。机器通过学习要素组合与既有司法决定之间的关联关系,掌握的是案件承办人赋予这些案件情节权重与作用的基础性认知结构。此时,办案模型包含着一个极其复杂且能够映射司法人员推理模式的非线性函数。该函数模拟的是,当众多情节同时出现在某一个案件场景中时,人类会选择将哪些情节或情节组合作为得出特定结论的理由。司法人工智能的这一工作机制可被界定为“理由模式”。
      当然,理由模式并不主张办案模型包含的那个决策函数本身是在进行理由权衡,而毋宁是认为,决策函数在回应人类对理由权衡的需求。埃琳娜认为,深度学习算法所实现的并非智能本身,而是沟通能力,更准确地说,是通过训练获得的精准回应人类特定沟通需求的能力。例如,大语言模型之所以能给出具有说服力的回答,并非因其理解提问者的问题本质,而在于其通过高强度训练预先掌握了提问者的核心需求。因此,要理解和解释司法人工智能,必须先找出它所服务的独特沟通需求究竟是什么。从这一意义出发,本文并不认为办案模型的工作原理本身是一种理由模式,而是主张办案模型所服务的沟通需求可以通过理由模式来精准刻画。这一沟通需求的核心内容是:针对当下案件,过往司法裁判中的决策者会作出何种决定。正是由于这一沟通需求的存在,办案模型所模拟的沟通形式才构成一种“理由模式”。
      三、司法人工智能理由模式的生成与运作
      理由模式的分析框架有助于还原人工智能借助案例库学习裁判理由的过程,这种还原并非停留在形式与实质割裂的“两张皮”层面,即让机器生成裁判说理文本,而是实质地去描述人工智能如何“学会”作出司法决定。约翰·霍尔蒂在讨论先例的人工智能模型时使用的符号框架,恰好可以用来说明案例语料库如何为裁判理由提供支撑。描述人工智能如何“学会”作出司法决定,不仅有助于客观评估其在“掌握”裁判理由方面的实际能力,也有助于更为精准地把握人工智能运用理由的方式与人类的本质差异,从而为精准识别人工智能自动化决策中的缺陷并开展针对性改进奠定理论基础。
      (一)案例库基础与理由模式的生成前提
      人工智能的核心工作机制,简言之,就是破解数据集输入与输出之间极端复杂的函数关系。例如,若某数据集的输入为[2,3]、输出为6,可轻易推知其函数关系为乘法运算。但是,对于部分函数关系复杂到超出人脑直接解析能力的数据集,人工智能的应用大致遵循如下工作模式:首先找到一个可能存在复杂函数关系的目标数据集,再通过深度学习算法“破解”数据项之间的函数关联,最终实现预测功能。这种工作模式同样可迁移应用于司法领域。
      假设过去的全体司法实践,即全体司法官员查明案件事实并适用法律的实践,均能够被完整收集并转化为一系列数据集上传,那么基于司法活动应有的规律性特征,可以推定这些数据集之间存在着某种可靠的函数关系,只不过目前缺少有效的破解工具。人工智能科学家尝试把问题拆解为:表征案件事实因素的数据与表征案件结果(如起诉或不起诉决定、判决或裁定)的数据之间存在某种规律性关联,因此需要搜集这两类数据集信息,通过机器学习将其关系编码为特定函数。一旦获取该函数,科学家便能据此预测新案件对应的法律文书生成结果。这正是现有技术条件下“机器法官”“机器检察官”概念的实质内涵。这项工作依赖两项根本性的前提:其一,假设所有已发生的司法实践均能被转化为可存储的数据;其二,相信这些数据之间能够形成确定关联,即其蕴含的规律大体清晰,具有可识别性。
      目前,司法人工智能的任务是针对数据量充足的几类简单案件建立专属数据集,并优先开展学习训练,如针对危险驾驶罪、故意伤害罪、帮助信息网络犯罪活动罪、寻衅滋事罪等案件类型开展文书结构化处理。为此,需构建一个在数量层面达到要求的案例库。所谓案例库,可理解为文书经结构化处理后形成的数据库,且人工智能生成文书的内容范围不会超出该数据库已有的信息范畴。深度学习过程需分别在训练集与测试集上逐步展开:先由技术人员和法官、检察官对文书中特定字段的含义进行标注(后续可实现机器自动标注),再由机器自主学习训练集中的案件要素和裁判结果之间的关联关系,直至能够将文书要素及其权重与裁判结果良好地匹配在一起。测试集的功能是提供未在训练集中出现过的文书样本,以检验机器能否为正确的裁判结果分配最高置信度。
      如前文所述,这种“基于要素而非基于规则”的设计方案已成为当前司法人工智能的主流技术路径,智能辅助办案系统正是依据各类被识别和提取的情节要素形成决策结论。这一技术现实意味着,一个能够准确描述机器学习过程的理论框架必须满足两项条件:第一,它应当是关于要素的理论而非关于规则的理论,其核心主张并非人工智能需实现法律规则的“直接”代码化,而是人工智能应借助案件情节要素辨识裁判理由,并通过裁判理由间接识别法律规则;第二,鉴于当前机器学习最重要的语料库是案例集,这种理论框架必须属于案例理论范畴,且能够阐释过往案例集如何帮助人工智能识别裁判理由。约翰·霍尔蒂提出的先例理由模式恰好满足上述两项条件,这是一套关于过往案例信息如何约束当下司法决策的理论框架。根据该理由模式,“先例中最重要的部分,是法院对该案中所展现的相互竞争的理由彼此之分量的评价,展现为这些理由之间的一个优先性秩序。此后其他法院其实并不必然受到先例所确立的规则的约束,或者以某些方式改变这些规则,而仅仅是去遵从之前已经得出的(理由)优先性秩序”。霍尔蒂的这一以理由之优先性秩序为核心的描述框架,最初被用于解释先例约束力的生成机制,随后被运用到基于案例推理的司法人工智能理论研究领域,并在近年来法律与人工智能的交叉研究中获得广泛探讨。
      在智能辅助办案系统的运用过程中,司法数据所蕴含的内在规律恰好可以通过理由的优先性秩序加以描述,这与霍尔蒂提出的理由模式理论形成了契合。对此,下文将展开具体论证。需要明确的是,用理由的优先性秩序描述司法数据规律,并非旨在阐释机器学习的技术细节,而是聚焦于“如何通过优化案例库帮助人工智能习得裁判理由”这一核心问题进行说明。人工智能学习裁判理由的目标有二:一是依托深度学习算法搜索最优函数;二是通过优化案例语料库为模型训练提供更能精准呈现司法规律的数据集。尽管我们无法直接对模型内部机制进行解析,但通过展示案例语料库如何为人工智能提供理由支撑,仍不失为一种有效的解释策略。
      (二)案例情节的结构分类与理由呈现形式
      (三)理由优先性秩序的形成
      (四)裁判理由的习得机制
      裁判理由的学习过程通过案例库的持续强化得以实现,这其中主要包含理由的发现、理由分量的划定、理由的巩固三项工作。
      1.理由的发现
      2.理由分量的划定
      3.理由的巩固
      四、理由模式下司法人工智能的限度与改进
      用理由模式还原了案例语料库帮助人工智能学习裁判理由的过程后,可以进一步审视,人们既往指出的司法人工智能的种种缺陷究竟是否真实存在,哪些特征构成人类与机器在识别裁判理由时的根本区别,以及在短时期不可消弭这种区别的情况下,应当如何克服司法人工智能的结构性缺陷。
      (一)对几种批评意见的回应与澄清
      一个最常见的批评是,神经网络实际上并不拥有人的意识,它只是在按照既定的程序行动,无法像人那样通过文书理解案件的意义和其中的因果关系。这个说法可以用约翰·塞尔的论断概括,即人工智能可以掌握句法,但人类的心智独一无二地掌握着语义。这种认为人工智能并不能理解语义的想法,是否已经受到不断发展的大语言模型的挑战,尚无定论,但必须澄清的是,当我们追问人工智能可否如同人类那样去理解和回应理由时,我们实际上只需径直判断,人工智能可否依据理由作出正确的决定,而不需考虑它从事此类活动的心智内容是否足够类人化。这就好比,如果机器能够以极高的准确率诊断癌症,那么它能否真正理解“癌症”的意义,并非关键问题。其实,该批评关联着一个更深层次的质疑,即人工智能不可复制人类的世界观和意义系统。也因此,学者们会认为,它无法像人类那样作出是非善恶的价值判断。然而,该观点是值得商榷的。基于理由模式的推论表明,人工智能并非不能学习价值判断。深度学习是对人类思维的逆向工程,它的任务是破解案件事实情节与司法决定之间的复杂函数关系,倘若办案人员本身就是基于法理、情理和事理,乃至文化和国情作出决定,那么在从事逆向工程时,人工智能学习到的就不仅仅是法律,因为理由的优先性秩序中不仅仅只有法律理由,也有道德理由和审慎理由。毕竟,人工智能的性能完全依赖由人类投喂的司法数据,人工智能的判断能力,归根到底寄生于人类的判断能力,只要历史司法数据中隐含着价值判断,一个得到了正确训练的人工智能当然可以将价值判断编入神经网络,以提升辅助决策的正确率。
      实际上,随着辅助办案模型的改进、案件情节要素数据的持续叠加,案例语料库所容纳的理由优先性秩序会更加丰富,进而会更充分地吸纳司法人员的价值判断。例如,上海市司法机关最早上线的故意伤害案件辅助办案模型包含86项案件关键要素数据,盗窃案件辅助办案模型包含102项案件关键要素数据。而在后续推出的帮信类案件辅助办案模型中,关键要素数据达到106项,寻衅滋事案件辅助办案模型中的关键要素数据达到144项。在这些要素项中,纯粹的法律要素只占一部分。此外,上海市司法机关正在推行线下办案行为全面线上化,以消除线上线下“二元办案”模式。线上一元办案模式推广后,机器将能直接从承办人员和其他司法人员的“办案行为”中获取司法数据,而无需依赖文书呈现的字段,这也就意味着,过去未在文书中得到表达的内容,尤其是承载了办案人员常识判断和道德直觉的数据,将有机会被人工智能的神经网络所捕获。在这种情况下,司法人工智能将有能力进行价值判断,因为价值判断的素材已经埋藏在历史司法数据中。
      如果理由模式准确描述了人工智能学习裁判理由的方式,不难推论,司法人工智能的迭代取决于案例库是否得到充分强化,而这种强化又取决于司法数据的积累,办案模型本身不能凭空创造数据,也无法跳过数据直接去评价理由。倘若数据积累不足,办案模型感知理由的敏锐性就会不足,毕竟司法决策要与历史数据形成对称,数据不足必然导致决策缺乏精度。可见,司法人工智能面临的核心困境是,它缺少一种机制以使它在信息匮乏的状态下实现能动决策、塑造新的实践。一个被广泛引用的例证是,人工智能无法就疑难案件给出一个出乎意料又符合理性要求的法律答案。平心而论,无法处理疑难案件这个弱点并不构成否定人工智能辅助司法决策价值的重要理由。人类面对疑难案件也经常束手无策,只要智慧司法的定位在于提升司法效率、减少重复性劳动,暂且放弃对复杂困难案件的求解,似乎也情有可原。
      有学者担心,人工智能辅助裁判将会迫使办案人员向历史平均判决结果靠拢,忽视对个案特殊性的关注,进而背离实质正义。实际上,目前的辅助办案模型至少设置了三道门槛来预防个案不正义的发生:一是办案人员在进入模型操作时,有权拒绝接受系统的自动化决策建议;二是当系统对案件要素的自动提取存在不足或偏差时,办案人员可通过手动输入补充关键信息;三是即便系统生成了辅助决策结论,办案人员仍有权根据个案实际情况对结果进行调整。可见,人工智能面对特殊个案的易错性,是一种可以被管理或补救的缺陷。
      (二)理由模式下司法人工智能的真正缺陷
      司法人工智能所面临的真正困境,并非不能应对疑难个案,而是缺乏创新能力。它所带来的后果是结构性的,以至于动摇司法自动化决策对于提高办案效率、节省司法资源的承诺。人工智能的理由识别模式与人类识别理由的方式存在一个巨大区别。更直截了当地说,机器从数据中学习理由,而人类从理论中学习理由。人类会以一套理论去组织理由,而机器不能够构造和应用理论,只能基于案例库情节之间的比对(理由的发现、理由分量的划定、理由的巩固)来逆向地、模仿式地识别裁判理由。理由不是从一套法学理论中孕育的,而是从历史司法数据的逆向工程中习得的。如果说司法数据的形成过程是从“办案行为”中生成“数据”,那么机器学习实质上就是从数据中还原办案行为。无论理由的发现、理由分量的划定,还是理由的巩固,都是在完成一项总体性工作,即从历史司法数据中找出从各个维度看都最为“精确”的裁判理由。这里的“精确”意味着消除错误,也即决策要与历史数据对称,从而最大限度地降低司法决定的意外性,确保同类案件的处理保持稳定可预期的一致性。神经网络深度学习的基本原理是反向传播算法和梯度下降算法,它们服务于一个单一目标,即误差最小化。前文有关“下山”的例子已提示了这一点:登山者面对四周的迷雾,需要在不断试错中逐渐找到通往山谷的坡道。类似地,机器需要“试探性地”反复试错,以找到在所有训练样本中表现最优的隐藏层权重和激活值,避免得出令人惊讶或意外的决策结果,而这种工作机制必然追求最稳妥的正确性。
      机器的试错学习不存在理论指引,而人类的学习必然以理论为指引。从错误中学习,其本质是记住一种碰巧达成的正确状态,并将正确的步骤作为“奖励”记住,然后继续在信息不充分的迷雾中摸索。相反,按照怀特海经典教育学的“三阶段学习过程”,人类对理论的学习要经历启发和探索(浪漫阶段)、精准与领悟(精确阶段)、豁达与清晰(综合阶段)的三重循环,进而实现知识的迁移与推广。从理论中学习不是盲目的,而是具有必然性、豁然性与不可拒绝性的。理论的本质是一个命题群,它包含一套对事物加以判断的推理模式和因果认知模式,它要实现对全体现象的自洽性解释,尤其是当新的现象出现时,既有的理论大厦就需被重新检视和续造以维持自身的完整性。正如艾略特对艺术理论的诠释,“现存的艺术经典本身就构成一个理想的秩序,这个秩序由于新的(真正新的)作品被介绍进来而发生变化。这个已成的秩序在新作品出现以前本是完整的,加入新花样以后要继续保持完整,整个的秩序就必须改变一下,即使改变得很小;因此每件艺术作品对于整体的关系、比例和价值就重新调整了;这就是新与旧的适应”。
      这种维持完整性的倾向和欲望,恰恰构成颠覆性理论叙事的原动力,故理论并不总是致力于降低“惊讶”程度,相反,它甚至会刻意去制造惊讶,挑战过去的定见。在这个意义上,理论工作要比机器学习远为超前,但也恰恰是这种超前让它有能力与长期数据积累形成的固化结构保持距离,因此得以适应“变革”。当法律、政策、社会观念、社会实践出现更替和革新,而司法实践尚未充分回应,因此相关数据未被人工智能捕获时,人类已经能够运用各种理论去适应变化,并迅速形成对策,这是人类的一项巨大优势,也是人工智能无法做到的。神经网络几乎只能用旧的案件的整体性理由秩序来理解新出现的案件的意义,然而,如果我们拥有一套法理论,它会用新案件来调整和改造旧案件形成的整体性秩序,改造后的秩序依然是完整的,却无法事先被神经网络捕获。
      人工智能可以理解什么是旧的完整性,但它无法理解什么是新的完整性。在一个已经被充分学习的案例库中,当一个独特的新案件被纳入,对于人工智能而言,理由的优先性秩序不是一下子被改变的,秩序改变需要重复理由的发现、理由分量的划定、理由的巩固的“换船板式翻新过程”。这不是一个孤案所能够推动的变化,根据理由模式,它需要足够多的样本,且这些样本覆盖了足够多样的情况,如此才能强化案例库,让神经网络经历有成效的试错。与之不同,理论仅仅吸纳一个案件便足以改造整个理由秩序,“新花样”的出现,刺激、躁动了理论,而新的经过改造的理论能够立即重塑过去所有库内案例的意义,这种极少数新信息对绝大多数旧内容的反向改造能力,恰为理论所独有。
      也许有人会问,难道不能从数据中创造出理论吗?恐怕不行。从数据中无法诞生理论,其原因在于:第一,数据旨在反映现实,而理论旨在改变现实,理论不是“过去之镜”;第二,理论是受观念驱动的。理论自上而下地建构自身,在一个新颖的理论被提出时,并不一定存在对应的实践,也不存在通过这些实践所形成的数据。也就是说,在数据不足的情况下,先形成观念和命题,再以此作用于世界,这种改变世界的能力有时会产生前所未见的数据;第三,理论追求解释上的完整性。理论的说服力是不受过去的数据牵连和修正的,因为过去的实践可能犯了整体性错误,而理论追求逻辑或理性上的完整性,倘若过去的数据与这种完整性相斥,应被放弃的不是理论而是数据;第四,在竞争中,理论以其“独特性”胜出。理论与理论之间的竞争本质,是对几种不同的问题展开与收束方案的取舍;而某一理论方案的力度,是由它相对于其他理论的说服力所决定的。新理论方案的说服力体现在多个维度:它特别的论证布局与设计,它所聚焦的独一无二的分析切入点,它让新概念登场的恰当时机,并且归根到底,在于它个别化的言说方式——只有足够个别化的言说方式,才能孕育出前所未有的说服力。但是,个别化本身意味着不被既定数据束缚。上述四点恰恰解释了为何新颖性是独属于理论的特质,因为新理论不可能从旧的历史数据中自然而然地生长出来。
      根据深度学习的两种基本算法逻辑,在训练集不发生显著变动的情况下,建模方式会维持不变,这意味着,在人工智能的认知框架中,现行秩序将被默认为“永远持续下去”。此结构性劣势在具体的司法实践中会产生如下两项后果。
      其一,当法释义学和其他法理论内部发生激变和革新,而未及时传导给司法实践时,人工智能无法察觉变革。人工智能理论界有一个“1633年隐喻”,即想象一个大语言模型仅仅受到1633年(这一年伽利略因宣传“日心说”而被判处终身监禁)之前所有科学公开出版物和其他文字资料的训练。这时候,倘若有人提问,人们究竟应当支持“日心说”还是“地心说”,大语言模型只会重申和反馈最大多数人的科学共识,即“地心说”。可以将这个思想实验平移至中国语境,在我国正当防卫的刑事司法实践中或许存在一个所谓“2020年隐喻”,即在最高人民法院、最高人民检察院、公安部联合发布《关于依法适用正当防卫制度的指导意见》(法发〔2020〕31号)前,人工智能在正当防卫类型案件中所采纳的理由优先性秩序必须符合“基本相适应说”,即防卫人所保护的利益与防卫反击所侵害的利益应当大致均衡。这一观念促成的长期“司法惯性”,是公诉和审判环节均把“只能对暴力侵害实施防卫”“只能在暴力侵害的瞬间实施防卫”“只能对暴力侵害施加程度相当的防卫”等,作为判断防卫是否成立和过当的根本依据,这导致正当防卫认定率畸低。2016年的于欢案与2018年的于海明案,推动法学界对正当防卫的起因条件、时间条件、对象条件、意图条件等作出根本性重构,即放弃严格均衡下的基本相适应说,而承认侵害的动态性,采取防卫人立场下的事前标准,甚至在一定范围内肯定防卫人的误判特权。
      只不过,上述理论转向并没有被直接传导给实务界,其间存在一定的时间滞后性。虽然于欢案的二审判决和于海明案的撤销案件决定颇有破冰意味,但彼时绝大多数历史司法数据仍受基本相适应说和法益均衡理论的深刻影响,在浩如烟海的同类型案件中,几个孤案根本无以力挽狂澜,甚至在人工智能的思维中,于欢案和于海明案只是建模时的“偏离性个例”,属于数据上“可以被容忍的统计误差”。可以想象,神经网络从司法数据中习得的必然是相对苛刻的正当防卫认定标准。从观念变革到实践转向存在着转换期,而恰恰在这一新数据供给不足的阶段,司法人工智能可能失灵。即便在转换期有新的数据进入人工智能的训练集,由于新旧数据之间不一致,人工智能最终习得的理由优先性秩序也大概率是不融贯的,无法支持一个确定的司法结论。
      其二,当本身足够复杂的法律发生增、改、废等变化时,人工智能无法相应改变其决策模式。对于简单的法律修订,人工智能通常只需通过办案人员在操作界面上的少数调整即可实现适配,如修改勾选选项内容、调整选项间的关联逻辑,或重新设置裁量幅度条等,这些操作会直接反映为决策树分支与知识图谱节点的相应变化。当面临新法颁布或旧法废止等重大变动时,情况则较为复杂。法律之间、法律和解释方法之间的重新协调将产生复杂的体系效应。以具有“总—分”结构的法律文本为例,如果修改了总则部分的规范,改变后的总则规范如何影响分则;如果修改分则部分的规范,总则部分能否以及如何适用于修改后的分则,这些问题均具有复杂性,这种复杂性就源于“总—分”结构本身蕴含着一套部门法理论。例如,若未来立法者对刑法文本进行修正,将不真正不作为犯的一般规定纳入刑法总则部分,那么不真正不作为犯如何适用于刑法分则罪名,就是一个理论问题。人们可能会问,除了刑法明确规定的不作为犯罪,所有刑法分则中已经规定的罪名,以及未来新增罪名是否都存在“不作为”的成立情形?这时候,就需要一个关于不作为犯的一般性理论去逐个判断具体罪名“是否适用”不作为情形,以及“如何适用”。
      遗憾的是,人工智能不可能“无中生有”地形成这样一套理论,它缺乏建模所需要的足够数据。于是,在法律已经修改、理论作业尚不健全的空白期,司法人工智能无法直接适用修改后的法律,而只能等待大量司法办案人员借助不作为犯理论,就法律修改后的体系性效应达成共识。人工智能对办案人员的共识进行的再理解,其实是一种二次理解,或者说派生性理解。相反,善于建立前瞻性理论的人类,可以较容易地处理上述困境。机器学习的有效运行依赖于“数据与信念的对称性”,只有当数据积累达到一定量级,才会产生准确的判断。然而,人类在运用理论时却能突破这种对称性约束,即使面对少数数据,甚至单个典型案例,也能通过理论工具发现认知突破口,从而迅速适应新形势并完成决策模式的转变。
      (三)理由模式下司法人工智能局限性的克服
      在理由模式下,人工智能虽能够从数据中学习裁判理由的提取方式,却并不掌握证成这些裁判理由的任何法理论。在现有技术条件下,该困境尚无有效的解除方法,但可通过一定途径加以缓和:鉴于人工智能的核心特质在于其具备对人类思维的逆向工程能力,或可借助这一特质弥补其缺陷。如果说从长期司法数据中学习裁判理由,是人工智能对人类智能的第一次求助,那么在变革发生时,由人类依据法理论更新裁判理由并投喂给人工智能,则构成人工智能对人类智能的“第二次求助”。
      1.以弹性的“出库—入库”机制维持适当规模的案例库
      当法律、司法解释等规范性文件在事实认定、法律适用等方面被实质性修改,且经评估认为修改所产生的体系性效应尚不明确时,应当慎重使用人工智能辅助办案,待积累足够多的人类司法数据后,再重新训练和部署司法人工智能。理由的优先性秩序通过案例库的强化得到积累和丰富,理由排序列表越完整,就越有利于机器准确识别裁判理由;而在新旧法律衔接阶段,司法数据会经历重新累积的过程,相应地,理由排序列表也要经历一段更新期。
      调研过程中,一些基层案件承办人向笔者反馈,有时对于案件情节大致相同的前后两个案子,智能系统推荐的决策内容却有很大差别,原因就在于当时处于新旧规范的更替适应期。为避免误导司法人员,此阶段应对智能辅助办案系统作出调整。如果停止运行系统的成本过高,可考虑建立衔接性的“出库—入库”机制,明确旧案“出库”的条件和规模,尤其需将办理时间较久、未能纳入新规则的案件清除出案例库,同时确保法律修改后新办理的案件及时入库,实现案例库的动态更新,以降低辅助决策误差率。或许,为使人工智能更快速地学习规则修改后的司法决策模式,可考虑启用重新学习机制。例如,在已上线运行的辅助办案模型中,若案件审查结论经手动修改后,与系统辅助决策推荐的结论不一致,如将“起诉”改为“不起诉”、将“实刑”改为“缓刑”,或改变系统推荐的量刑和罚金幅度,承办人在提交审查结论时会触发偏离提示,需要填入偏离推荐结论的理由才可使文书生效。这个架构可用以训练神经网络对法律、司法解释修改后的适应能力。具体而言,如果规则修改后案件承办人开始大量修改推荐的审查结论,则可将承办人就偏离性决策给出的说明作为新理由注入训练集,以供人工智能学习,从而更快速地调整理由的优先性秩序。
      2.建立“案例库对抗制”
      应当构建案例库对抗制,即由不同法律知识群体独立地生成司法数据并形成相互制衡。在法律职业共同体中,既存在着公检法和律师、学者等亚群体,也存在按地域和审级等划分的亚群体。应当允许这些亚群体建立自身案例库,各自独立训练人工智能,从而形成每个群体特有的理由优先性秩序。这一做法的优势在于,若某一法律职业亚群体在法律解释与适用方面取得重要进步,这种进步不会因该群体是少数群体而被压制,由此可形成制衡和改进机制,在避免体系僵化的同时,便于各亚群体将其对法律的理解贡献给整个法律职业共同体。在制度设计上,案例库对抗制允许每个数字化项目遵循“业务人员牵头、技术人员跟进,业务人员提出办案需求、技术人员予以个性化实现”的原则组建团队,依照其集体价值观选择历史司法数据训练人工智能。由此,即便形成大小不一的辅助办案系统,但若不同模型能够形成“系统间不相容”的审查结论,反而会促使承办人和审理者进一步审查案件,反思其集体历史经验。这有助于法律职业共同体中各类亚群体实现相互制约监督,避免落入“人机合谋”的陷阱。有学者指出,智慧司法中的人机互动本质上“并不是人、机关系,而是法官群体与法官个体的关系”,因为人工智能是“整个法官群体的智慧、思维和经验的结晶以及在此基础上人类建立的逻辑模式”,若此论断成立,那么对抗制的建构便为人们反思和调整这种集体经验和思维模式提供了制度工具。
      目前,由各人民法院、人民检察院单独建立案例库训练人工智能尚不现实,较为合理的做法是,以高级人民法院或者省级人民检察院为单位,从三级院抽调业务人员,与院内技术人员或外聘技术人员共同组建专班,负责训练辅助办案模型。未来可考虑引入“组织层面统一、训练层面分散”的工作机制,即由同一团队搭建统一的算法架构,而各基层院、中级院及分院可根据其需要自主选取不同范围的案例训练其模型。此举可在确保计算品质的同时,兼顾不同地区在社会、经济、文化方面的地域差异。
      结 论
      当下实践表明,司法人工智能若要从案例中学习裁判,必须模拟人类对理由的辨识与运用。但是,人工智能只能从案例语料库中学习理由,而人类可以通过法理论创造、反思和修正理由,这种差异导致人工智能缺乏应对变革的能力。这一现象背后更为根本的原因是,只有理论本身的推进才能吸纳具有实质创新性的立法、观念以及案例,进而快速调整理由优先性秩序,而时至今日,人类智慧依然是促成理论推进的唯一动力。
      当下学术研究中存在一种倾向:将人工智能置于核心主角地位,法学则成为为其成就欢呼的众多学科之一。但是,法理论既无法成为也无必要成为依附于人工智能技术的次生性、服务性理论。法理论蕴含着人类对规范性与因果机制的深刻理解力,机器仅能从数据中追踪理论轨迹,而无法凭空构造理论。未来的人机协作或许应明确一项核心分工,即由人类提供理论能量,主导观念革新与实践进步;由人工智能保存进步成果,将整体司法效能提升至基准线以上。


    【作者简介】
    徐舒浩,上海交通大学凯原法学院助理教授。


稿件来源:北大法律信息网法学在线

原发布时间:2025/9/28 8:04:46

上一条:柯 达: “超越货币”:我国数字货币法学研究的回眸与展望 下一条:翟 峰: 从新修正的代表法探论代表密切联系群众之意义暨任务

关闭