【中文摘要】法律垂域大模型正经历从理论探索到实践应用的关键转型。法律领域的模型功能需求与规模法则衰减,以及通用与专用科技的周期规律共同塑造了法律垂域大模型的不可替代性。从我国法律领域需求、高质量领域数据积累、技术和算力准备等方面考量,应优先采用基于通用大模型的领域增强范式开发法律垂域大模型,并形成知识沉淀和技术储备,为全量训练法律基座大模型奠定基础。尽管法律垂域大模型在法律任务方面取得显著提升,但也应当认识到其仍然面临法律知识幻觉困境、法律可解释性假象、法律价值权衡缺陷以及内容一致性悖论等技术局限。下一阶段,应在中国式法治现代化建设的总体框架下探索兼具中国特色与全球示范性的法律垂域大模型研发与应用道路。
【全文】
“大模型”无疑是近年最火热的科技概念之一。自2022年末以来,这类参数量巨大、计算复杂度高的机器学习模型加速迭代。在此进程中,以DeepSeek为代表的国产大模型正在快速演进的赛道上实现从追赶到并行甚至超越的关键跨越。大模型的飞速发展,促使法律人工智能从传统规则驱动的符号学派迅速向基于大模型的生成式人工智能演进。全球范围内法律垂域大模型方兴未艾并已经展现出赋能法律行业变革的潜力。然而,有观点认为,基于大模型的“规模法则”,未来的人工智能一定是在多个垂直领域均具有复杂问题处理能力的通用人工智能。沿着当前方向,乐观预测3—5年、保守预测5—10年人类就可以实现通用人工智能。换言之,包括法律在内的各类垂域大模型只是当前发展阶段让人眼前一亮的浪花,最终定将日渐式微。那么,法律垂域大模型究竟是“穷途末路”亦或“柳暗花明”,法律领域是否存在着无法通约的特殊性?如果我们认可法律垂域大模型存在的必要性,实践中基于通用基座模型进行领域增强的“由通到专”与全量训练法律基座大模型的“由专到通”两大范式之间,哪种范式更加符合中国式法治现代化建设的总体要求?通用大模型面临的法律知识幻觉、法律可解释性等难题又是否可以在法律垂域大模型的发展背景下得到最终破解?本文拟对上述问题展开研究。
一、法律垂域大模型的热趋势
法律垂域大模型是专门设计用于法律领域,具有极强法律语言理解、法律任务泛化和可信知识生成能力的一种基于大语言模型的生成式人工智能系统。法律垂域大模型在全球范围内蓬勃发展,并在法律文书生成与审查、法律案件分析与研判、法律规范查询与检索等任务中表现出重要潜力。
(一)法律垂域大模型的全球图景
作为人工智能与法学交叉的前沿成果,法律垂域大模型正处于快速增长阶段。一方面,得益于通用基座模型的迭代发展,针对法律数据再训练、法律场景再优化的垂域大模型不断涌现,并已成为法律人工智能的重要发展方向。另一方面,法律领域性能的提升与强烈的市场需求进一步缩短了法律垂域大模型的科技成果转化周期,新技术正在被全球范围内的法律工作者们逐步接纳并使用,法律人工智能将有望从传统意义上的工具向“人机协同伙伴”跨越。
诞生于2022年的Harvey是全球视野下最为知名的法律垂域大模型之一。其主要依托OpenAI研发的通用基座模型,通过与国际顶尖律所合作获取的高质量法律数据开展微调训练,以此来为法律职业群体提供合同审查分析、尽职调查与合规、法律文书生成等专业人工智能服务。该模型已经被应用于全球42个国家的235家企业,并于2025年2月、6月分别获得各3亿美元的D轮与E轮融资,公司估值已达到50亿美元。除此之外,知名法律垂域大模型还包括由汤森路透收购Casetext公司所推出的CoCounsel,迭代后的2.0版本已整合文件审查、数据检索、文件综述等多项功能。另外,著名法律科技公司律商联讯(LexisNexis)也已推出法律垂域大模型Lexis+AI,将大模型与Lexis的权威法律数据库相结合,旨在提供高准确度的法律检索和文件起草助手。不止在美国,基于本国法律的垂域大模型研发同样在全球范围内进行,法国、澳大利亚、巴西、印度等国均有相应的研发与实践。
与域外以市场驱动的大模型发展范式相比,我国法律垂域大模型的发展逻辑存在一定差异。从一个历时性的视角看,我国法律人工智能发展呈现出鲜明的国家主导特征。早在2016年国务院发布的《“十三五”国家信息化规划》就明确列入“智慧法院”与“智慧检务”的建设任务。2017年国务院印发的《新一代人工智能发展规划》则在“推进社会治理智能化”部分强调“智慧法庭”建设。与之对应,在过去十年,政法领域对人工智能的重视与支持可谓空前,曾有学者评价“尚未有哪个国家像中国这样通过官方的顶层设计来支持司法和公共安全领域大规模地运用人工智能技术”。不同于过去十年对法律人工智能如火如荼的追捧,本轮官方对法律垂域大模型的发展显得更加审慎、务实。从顶层设计上观察,最高人民法院在2022年颁布的《关于规范和加强人工智能司法应用的意见》中虽提及“加强大规模预训练语言模型及其应用”,但尚未自顶向下大范围推动法律垂域大模型的部署。从主导力量上观察,尽管各地政法机关陆续展开试点,但企业、高校为代表的社会力量对法律垂域大模型的研发似乎更加热情。这一细微转变有着两方面原因:一是经过多年来的大力推进与持续投入,政法机关基本完成了对智能技术的“祛魅”,能够更加理性客观地看待法律人工智能的发展与限度。二是法律垂域大模型技术尚未完全成熟,以“知识幻觉”为代表的各类风险仍然存在,这制约了政法机关的深入应用。如果说前一阶段法律人工智能发展是国家主导的地方试点与同侪竞争,那么本轮的法律垂域大模型则更多可被形容为多元主体参与的技术先行与审慎布局。
在各类国产法律垂域大模型中,最重要的之一莫过于2024年11月最高人民法院发布的“法信法律基座大模型”。作为国内首个完成网信部门生成式人工智能服务备案的法律行业基座大模型,法信大模型以“国家级法律人工智能基础设施”为定位,基于最高人民法院海量、权威和高质量法律大数据预训练形成。该模型不仅具备法律语义理解、逻辑推理、融合搜索、内容生成等基础能力,还能够凭借其“基座”属性在行政执法、公共法律服务等业务中发挥作用。在地方政法机关层面,2024年4月苏州中级人民法院基于大模型开发了“未来法官助手”——司法人工智能辅助办案系统,并在金融借款合同、劳动争议、买卖合同、房屋租赁合同等八类常见案由中应用。在深圳,由深圳市中级人民法院自主研发,基于大模型的人工智能辅助审判系统也于2024年6月上线运行。上海、合肥、贵阳等多地法院、检察院乃至仲裁委,同样可见垂域大模型研发应用的相关报道。除了政法机关外,作为原始创新和科技突破的重要策源地,各地高校、企业等对法律垂域大模型的研发更为积极,清华大学“PowerLawGLM”、复旦大学“DISC-LawLLM”、浙江大学“智海·录问”、山东大学“夫子·明察”、东南大学“法衡”,阿里云“通义法睿”、科大讯飞“星火法律大模型”、北大法宝“法宝来言”、华宇元典“元典问达”、中国司法大数据研究院“法观”等垂域大模型纷纷产生,充分展现由多元主体共同参与国产法律大模型研发的火热实践。
(二)法律垂域大模型的应用前景
相较于传统的符号主义规则引擎,法律垂域大模型以其优异的自然语言理解与生成能力,推动法律人工智能从基础信息处理到复杂决策支持的跨越,在诸多法律业务场景中展现出应用潜力。未来,随着智能技术的自我适应、高速迭代与领域普及,法律文书生成与审查、法律案件分析与研判、法律规范查询与检索三大类(写、析、查)人工智能应用场景有望高度集中于法律垂域大模型之中,法律业务的生产组织方式将可能因新兴技术实现系统性升级。
一是法律文书生成与审查类应用。一直以来,法律文书生成与审查是法律人工智能的重要发展方向之一。然而,传统的规则引擎类系统通常采用结构化要素回填机制,即通过预定义的模板(如起诉状、判决书的固定格式)匹配案件要素(如当事人信息、诉讼请求),并将既有离散信息填入预设字段。这种机械填充仅仅是模板驱动的静态文本组合,缺乏对案件整体的深度理解与逻辑推演。与之相较,法律垂域大模型通过大量法律文书的预训练,能够学习到法律语言的深层含义以及法律文书的逻辑结构与上下文关联。这意味着,法律垂域大模型已经基本具备结合案件事实与法律规范的个性化生成能力,而非简单套用固定模版。同样,在文书审查类应用上,传统法律人工智能一般仅能识别字段缺失、格式错误,以及常见的语病问题,无法对文书内容展开深入审查。法律垂域大模型则有望识别文书中的逻辑一致性、说理充分性等深层次问题,并提供建设性的修改建议,推动文书审查类应用从形式审查向实质审查迈进。
二是法律案件分析与研判类应用。法律垂域大模型通过深度学习可以从语义单元理解法律领域的规范与事实,并挖掘两者之间的深层语义映射关系,从而在功能上模拟符合法律人思维方式的逻辑推理。相较于以关键词匹配或规则牵引的传统法律人工智能,法律垂域大模型能够更好地解决涉及复杂要素的案件分析与研判任务。这使得当前的各类法律垂域大模型在识别案件信息、提取争议焦点、归纳裁判要旨等方面的性能较以往而言有着显著进步。也正是因为对法律领域自然语言的深度理解,法律垂域大模型能够更加精准地识别用户真实的法律询问意图以及隐含要求,并结合多轮对话不断修正与完善生成的内容。这都显著有别于先前多数“法律问答机器人”个别轮次的简短对话,极大提升了用户的使用体验。
三是法律规范查询与检索类应用。法律垂域大模型通过预训练对法律文本的深层语义进行建模,突破了传统关键词检索易因术语差异或表述变化而导致检索遗漏的不足。更进一步,法律垂域大模型具备将查询与检索的法律信息进行深度关联、动态扩展与精准归纳的能力。例如,不仅可以返回相关的法律规范,还关联指导案例与学术观点。当然,需要特别说明的是,法律垂域大模型预训练过程并非记住所有的法律规范,而是通过分析海量法律规范,识别深层的语义结构和逻辑关联。因此,法律垂域大模型自身并不包括一个内在的法律法规库。这也决定了法律规范查询与检索的任务需要结合外部法律数据库和实时更新的法律条文,通过语义理解和意图识别来提供精准的查询结果。
二、法律垂域大模型的存废之争
尽管通用大模型已经具备促进和改善包括法律规范解释在内的法律任务的潜力,但法律领域对专业性、定制化、灵活性的领域需求,规模法则在法律领域的衰减效应以及科学技术“专用”与“通用”的周期演化律都决定了大模型时代,法律垂域大模型不仅不会穷途末路,反而可能在大模型基础之上柳暗花明。因此,在推动法律垂域大模型研发与应用之前,我们必须回应法律垂域大模型的存废之争。
(一)法律领域的模型功能需求
法律是一个高度专业化的领域,从形式角度来看,法律文本往往包含大量以“法言法语”的形式存在的兼具复杂性与独特性的专业术语;复杂的逻辑关系使得法律推理模式并非单纯的语义判断或线性判断,而可能同时包含道德判断或价值判断,体现为一种对话式交流与“说理的艺术”。从实质角度来看,法律领域由法律职业共同体所构成,通过共有的法律思维模型与行为方式,共同体成员得以在共同的法治运用规范、统一的法律语言相互沟通,这种思维与交流规范同时也作为法律领域的准入规范,只有接受法律思维与法律知识训练的人才能被接纳为法律职业领域的适格成员,由此彰显法律领域的权威性与专业性。以此为参照,有学者从“法律指令遵循”(legal instruction following)、“法律知识”(legal knowledge)、“法律稳健性”(legal robustness)等方面对现有通用大模型的法律应答能力进行测算,着重评估通用大模型能否依据指令结构基于现行法规、既有判例等规范回应使用者提出的问题、能否像法律职业者一样识别使用者输入内容中的涉法内容,并排除非涉法内容的干扰以及当使用者采取不同方式表达同一问题时,大语言模型是否仍可做出一致性回复。亦有学者以大模型可能参与的法律业务领域为参照,提出基础信息检索(basic information retrieval)、法律基础推理(legal foundation inference)和复杂法律应用(complex legal application)的三阶层标准,以验证通用大模型针对不同法律事务所具备的应用潜力。结果显示,主流大模型存在解决法律领域任务时未能保持法律逻辑一致性与法律推理可解释性、缺乏多模态多任务覆盖能力、面向复杂法律问题的深度推理能力不足、易受训练集中错误和价值偏见误导等局限,且开源通用大模型因为与下游法律任务不兼容而未能表现令人满意的性能。由此可见,通用大模型虽然可以通过大规模预训练获得广泛的知识基础,并且在面对新问题时,通用大模型已经呈现出良好的涌现特性和泛化能力,但在其处理法律领域复杂问题时,权威性、准确性和专业性仍然面临瓶颈。
除了专业化需求之外,法律领域任务还具有高度定制化的特性。法律垂域大模型可以满足不同情境下的法律服务需求。在法律咨询、合同审查、案例分析等具有特殊性、定制化的场合,用户对大模型输出结果的需求形式也有所差异,而这种差异需要不同的模型配置和参数设置。例如2024年由最高人民法院等单位发布的“法信法律基座大模型”旨在针对协助法官完成类案检索与裁判文书写作、辅助执法人员审查案件信息与监督执法行为合法性,因而其开发路径更偏向于官方化、正式化的应用场景。
此外,法律领域任务通常涉及大量敏感信息,如案件材料、法律文书中包含的国家机密、商业秘密、当事人隐私等信息。如果这些数据在处理过程中泄露,会引发严重的数据安全风险与法律问责。当前,相当部分通用大模型在用户协议中明确规定可以采集、分析并使用用户的提问和生成数据用于优化模型训练。因此,无论政法机关亦或是律师事务所等机构工作人员在直接访问或通过API调用部署在公开网络的大模型时将面临不同程度的数据安全风险。这也决定了各类法律机构对于法律垂域大模型的私有化部署有着极高的刚性要求。然而,通用大模型巨大的参数量使得对其私有化部署的算力集群投入通常远超一般法律机构可以承担的范畴。因此,参数巨大的通用大模型无法在算力资源相对有限的法律领域,尤其是政法场景中完成有效的私有化部署;而经过蒸馏的轻量版通用大模型往往意味着在法律领域更加不佳的表现。与通用大模型相比,法律垂域大模型不仅具有专业化与定制化的优势,还因聚焦法律领域任务而以更小参数规模实现更快的推理速度和更低的内存占用。这也决定了法律垂域大模型可以实现高效能、轻量化、灵活性的私有部署,无需像通用大模型那样配置昂贵的算力资源。
(二)法律领域的规模法则衰减
在通用大模型的开发理念中,“规模法则”(scaling law)具有至关重要的影响力。该法则认为增加模型参数规模、数据量和算力资源可以显著提升模型性能。随着模型规模的不断扩大,性能提升会呈现幂律增长。换言之,只需更多数据、更多参数、更强算力支撑,未来意义的大模型一定能够在法律领域取得更优表现,其潜台词在于法律垂域大模型无存在必要。然而,考虑到规模法则在法律领域可能遭遇严重的衰减,法律垂域大模型仍具有不可替代性。
所谓“法律领域衰减”,是指通用大模型通过扩大参数、数据、算力所获得的性能提升曲线在面临法律领域的特异性之后可能出现边际效应锐减的态势。众所周知,大模型计算性能的提升具有递减趋势,需要指数级的资源(参数或数据或计算量)才能获得线性/有限幅度的损失降低。当通用模型参与达到一定量级后,每单位的算力投入带来的能力提升幅度开始下降。李国杰院士就认为,大语言模型系统需要具备持续学习、适应环境、理解复杂情境等能力,而这些能力无法仅通过算力堆砌实现。然而,这种边际效应递减效应在面临法律领域特异性需求时还会被进一步放大。首先,通用大模型学习了海量的跨领域数据,其中法律专业领域知识在整体模型参数中的比例较低。此种知识稀释效应在规模法则的边际效应递减方面显得尤为突出。其次,当通用大模型参数规模达到一定量级后,其在捕捉法律等特定领域知识和细微差别方面的能力不再随着参数规模增加而显著提升。最后,规模法则指出,如果希望通用大模型具备更优性能曲线或更良好的模型能力,需要协同扩展模型规模、数据规模和训练部署,避免任何一个维度出现短板。而法律领域的数据资源现状可能放大通用大模型的专业优化难度。一方面,由于法律领域参数获取依赖行业特有数据,而这些数据,尤其高质量法律数据通常分散于法律机构内部。这也决定了大模型事实上无法无限制扩大参数规模与法律数据量以提升其在法律任务方面的表现。另一方面,法律数据公开主体可能根据其特定意图限制其公开的数据范围、种类和呈现方式,仅仅依托有限的公开法律数据进行预训练的通用大模型很容易存在法律知识盲区和价值偏见,难以满足法律领域高精度、专业性和中立性的要求。
与规模法则的领域特异性衰减效应相比,法律垂域大模型通过领域数据微调能够更高效地捕捉法律领域的专业特征。换言之,在法律等专业领域,当通用大模型参数达到一定量级后,单位参数训练成本的性能提升幅度将显著低于针对法律领域进行微调所取得的性能提升幅度。有研究显示,使用不到0.5%的原始数据集来训练任务特定模型,与使用完整任务相关数据训练的模型相比,性能提高2%。在此基础上,我们可以设想在算法优化的基础上,法律垂域大模型仅需依托法律领域相对有限数据资源便可达到可观的精准度。这也证明“较大模型的推理模式可以提炼为较小的模型”,并仅需基于成本规模更低的硬件配置便可实现良好的推理效果。综上,由于领域内生的精确性与专业性等要求,通用大模型难以通过简单的参数规模扩张捕捉法律语言中细微且复杂的特征。
(三)通用与专用科技的周期规律
通用与专用科技的交织影响是人类科技发展史的普遍现象。工业革命以来的重要技术发展在初期表现为基础性、先导性、普适性与开放性。随着应用的深入,领域需求逐渐显性,通用技术日益专业化并形成特定领域的专用技术。正如哈耶克提出的“知识分工”(division of knowledge)那样,人们在生产生活中所需要的各种知识并没有以整合的形式存在,而是以知识碎片的形式为不同个体所掌握,无人能够掌握整体意义的知识。知识的互补性特征和分立性特征,催发了大语言模型的“知识集聚”与“知识分化”,表现为通用大模型为专用大模型提供基础工具与方法,专门(垂域)大模型向通用大模型提出优化在特定专业领域表现的要求。具体而言,法律垂域大模型可以在通用大模型的基础能力支持下搭建更为专业和规范化的知识工程体系,拓展知识利用范围、提高知识利用效率,形成知识规模化效应。
从创新扩散理论而言,通用大模型因其具有较明显的相对优势和广泛的适应性,可以在面世初期较好地适配多个行业和应用场景。随着通用大模型成熟并进入广泛应用,各行业为了满足特定需求,会倾向于基于通用大模型开发专用大模型。新生的专用大模型随着用户体验和反馈的积累而得到改进,被“取代”的通用大模型也会因为竞争压力而进行相应改进。专用大模型在首次引入时,其相对优势通常相当小。当专用大模型充分吸收行业标准、专业知识和组织结构要素优化参数配置后,其更为专业的表现使其对更广泛的采用者更具吸引力。某种意义上,这便构成了通用大模型的创新扩散与专用大模型后发适应之间的平衡结构,并通过在特定领域所形成的竞争关系共同推动技术迭代。
更进一步地,法律垂域大模型是法律职业实体性(entitativity)的必然要求。涂尔干曾指出,伴随着人口数量增加与人类知识范围扩张,城镇作为社会资源聚集的场所打破了各个专业领域之间的交往壁垒,社会容量及社会密度获得极大扩张,人们逐渐意识到“工作越是分化,生产出来的产品越多。分工为我们提供的资源更丰富,更优质”。伴随着社会分工的多样化,人们从中获得了更多福利,从而“尽可能扩大分工的范围,努力去获得最大的利益”。在社会分工背景下,各个职业构成了一个相互依赖的生态系统,在该系统中各个专业领域得以在社会整体性背景下实现知识演化。法律垂域大模型的发展过程也充分反映了社会分工下专业分化的一般路径:通用大模型提供了基础的技术平台与运作理念,为聚合各领域公开数据提供条件,显著降低了信息获取与内容生成的时间成本。随着大模型技术逐步渗透至包括法律领域在内的各个社会部门,人们既感受到通用大模型所带来的高效便捷,又意识到其无法充分回应法律领域专业性需求,从而推动法律垂域大模型的诞生。法律垂域大模型相对于通用大模型的独特性同构于法律领域相对于社会整体的独特性,不仅反映了社会分工下专业领域性所要求的管辖权,也是奠基于同一技术脉络、保持其领域开放性、成为社会总体连贯部分的途径。
综上所述,通用大模型与法律垂域大模型共同构成了动态的技术生态系统,应当以互补而非替代的关系看待两者的演进路径。具体而言,通用大模型提供了跨领域、跨任务的自适应学习和推理能力。它的扩散不仅为各行业提供了大模型的思想启蒙,也引导针对特定领域的垂域大模型。同时,法律垂域大模型在法律领域的深耕能够不断反馈出应用中遇到的实际问题和需求,并反过来推动通用大模型的改进与完善。那种认为通用大模型必将取代专用大模型的观点忽略了这样一个规律,即通用技术的出现并不意味着对专用技术的淘汰,而是为专用技术的发展提供基础功能并催生专业技术的创新。充分发挥通与专之间的互动与协同演进关系,将有助于提升法律领域的问题解决效率与风险化解能力,并最终增进全社会技术福利。
三、法律垂域大模型的范式之议
目前法律垂域大模型主流的研发范式可以概括为“由通到专”和“由专到通”两种范式。尽管两者都旨在提升大模型在法律垂域的理解、推理和生成能力,但由于范式的差异也呈现出独特的优势和局限。中国法律垂域大模型的研发范式选择要综合考虑应用场景需求、数据资源、技术准备等多元要素。
(一)由通到专:基于通用基座模型的领域增强范式
所谓“领域增强范式”,是指在通用基座大模型的基础上,通过引入法律领域中诸如判决书、法律法规、合同、法学论文等领域数据对大模型参数进行增强和优化,使其具备更强的法律语境理解和推理能力,从而实现由“通才”到“专才”的进化。既有的LaWGPT, LawGPT_zh, LexiLaw, Lawyer LLaMA, HanFei, JurisLMs等法律垂域大模型大多基于领域增强训练范式而形成。正是由于领域增强训练系“由通到专”的关键所在,因而有必要对其技术原理及其优势、劣势进行全面分析。
1.领域增强范式的技术原理。“法律领域增强”本质是在通用大模型的基础上,通过引入法律领域数据进行无监督的增量训练,并结合法律案件分析与研判、法律文书生成与审查等特定法律任务进行有监督训练,从而实现法律领域知识的迁移与法律领域任务的适配。该范式主要包括领域自适应预训练(domain adaptive pretraining)和领域微调(domain fine-tuning)两部分工作。
领域自适应预训练是在所属垂直细分领域的既有数据基础上对通用大模型继续进行增量预训练。对于法律垂域大模型而言,领域自适应预训练则是在通用大模型基础上引入法律文书、法律规范、指导案例、法学论文等高质量法律数据集,从而使通用大模型理解法律领域知识的底层表征——语言风格、专业术语和逻辑结构等。其核心目标在于实现法律领域知识向通用大模型的迁移。
法律领域微调是在预训练模型的基础上,利用与法律领域特定任务有关的标注数据进行针对性训练,更新模型部分或者全部参数,从而使模型适应特定的应用场景和任务需求。微调过程中,模型首先接收与目标任务匹配的带标签数据集,对样本逐个预测并生成结果。随后,将该结果与标注的真实值(标签)进行差异比对,将误差量化为动态反馈信号。基于此反馈,系统采用梯度下降等优化算法对内部权重参数实施定向调节,对预测错误贡献度高的权重施加强干预,而对次要参数仅作微调。这一过程循环迭代,使模型在持续校准中逼近预测精度与泛化能力的最优平衡点,最终实现从数据特征到目标输出的精准映射。例如,引入大量标注过的高质量法律问答对数据来优化法律垂域大模型在法律案件分析与研判类任务中的表现。
从技术视角来看,根据模型调整的程度,微调总体可以细分为局部参数微调和全局参数微调两种方式。局部参数微调是指冻结基座大模型大部分预训练参数,仅对基座模型与法律语言理解和生成有关的参数进行训练。基座大模型的底层预训练参数大多学习的是语言之基本词性、句法结构、局部语义。这些基本特征在不同任务中具有通用性,冻结后可以避免因微调而破坏其泛化能力。局部微调仅对负责提取与法律任务相关的抽象参数进行微调,可大幅减少调用的训练参数量,从而降低显存占用和计算需求。全局参数微调则是对通用大模型底座的所有参数进行训练,从而使其全面适应法律领域的知识和任务。一般认为,当新任务的分布与预训练任务差异较大,或有足够多的标注数据时可以采用全局微调。换言之,只有拥有大量高质量、精标注的法律数据集时,全局微调才可能让通用大模型所有参数进行领域适配,从而使微调后的法律垂域大模型与原基座模型在法律任务的性能表现显著不同。不过,与后文提及的全量训练的法律基座模型相比,全局微调的法律垂域大模型仍受到原始基座模型设计的限制,例如架构、优化策略以及训练数据的分布。因此,微调的法律垂域大模型在本质上还是一个“优化后的版本”,而非完全独立的新基座模型。
概言之,法律领域自适应预训练使大模型获得了基础法律知识,而法律领域微调则进一步让大模型获得运用法律知识解决法律任务的能力。当然,在实践中,不同研发主体可能根据资源与技术准备,结合两种方法或选择其中一种进行法律领域的增强训练。
2.领域增强范式的优势。目前,法律大模型大多采取领域增强训练范式主要是基于四个方面的原因。首先,在资源(计算)效率方面,通用大模型已经耗费大量计算资源训练完成,因而仅需针对法律领域的少量数据(相较于基座模型的预训练量而言)进行增强训练,在降低数据需求的同时节省了计算成本。其次,在时间成本方面,通用大模型的领域增强训练过程较快,可以在短时间内获得一个性能优异的法律大模型。这种资源集约化的模式既规避了重复建设基础模型的巨大投入,又能依托开源生态实现快速迭代。再次,在技术继承性方面,通用基座模型已经在海量数据中学到了通用能力,领域增强训练时可以直接利用这些能力。在语言模型的知识迁移机制中,通用基座大模型在预训练阶段形成的语法解析、逻辑推理和跨模态理解能力,为法律文本特有的复杂句式解析奠定了基础。例如,法律条文中的“但书”条款结构,其语义关系解析可复用模型在通用领域习得的转折关系识别能力;又如,司法裁判文书中的要件事实识别,则能在一定程度上运用模型通过海量文本训练出的基本的实体关系分析能力。这种知识迁移使得法律领域增强训练无需从零构建基础语言理解模块,只需针对法律术语体系、特殊文本结构进行定向强化即可。最后,在跨域适配性方面,法律任务不仅需要借助法律垂域知识,也需要借助跨域的多元知识,而通用模型的底层能力为法律垂域大模型提供了较好的通用能力基础。领域增强训练范式的适配性表现为法律知识单元的动态组合能力。当模型需处理复合任务时,可通过模块化架构激活不同专家模块的协同推理,同时根据输入文本的关键术语自动分配权重配比。这种设计不仅提升了大模型解决跨领域任务的效率,更重要的是建立了知识迁移的安全通道。当模型需要适配新的法律规范时,仅需在原有框架中插入特定子单元,而无需重构整个知识体系。
3.领域增强范式的劣势。通用大模型的预训练数据来自新闻媒体、社交平台、百科知识、智库等多种渠道,虽然知识面广,但对法律领域的专业术语、逻辑推理时可能“力不从心”。具言之,领域增强范式中所引入的法律数据相较于基座大模型训练的海量数据而言,占比仍然严重不足。这可能导致该范式对法律语义捕捉存在结构性缺陷,难以充分习得法律语料中包含的法律知识,也就难以充分建立超越法律文本表面语义的深层法律推理能力。除此之外,领域增强训练范式高度依赖通用大模型的质量。通用大模型对法律领域中的某些专有语言结构或推理方式缺乏针对性优化,导致性能受限于基座模型的能力。即便通过法律数据“投喂”进行领域增强训练,其处理复杂法律任务的能力仍受基座模型“先天能力”的干扰或约束。值得注意的是,领域增强训练还可能出现灾难性遗忘或者数据污染的情况。领域增强训练时如果不谨慎,可能覆盖通用大模型中已有的知识体系,导致训练数据的“劣币驱逐良币”。这种现象源于神经网络参数的全局敏感性,当法律领域数据分布与通用语料存在显著差异时,过度调整参数将破坏模型原有的跨领域泛化能力。
(二)由专到通:面向法律基座大模型的全量训练范式
所谓“全量训练范式”是指不依赖现有的通用大语言模型,从零开始设计和训练一个法律领域基座大模型,模型的所有表征空间完全由法律数据塑造。如果说“由通到专”是找到一个受到良好教育的“通才”并对其进行法律的专门培训,强化法律能力的同时保留基础知识,那么“全量训练”就相当于从零培养一位经过专门训练的法律专家。当然,法律领域的任务并非在真空中运作,对其高效处理还需要借助跨领域知识。因此,“全量训练”的法律基座大模型并非终点,还必须通过多种方式适度引入通用数据逐步提高模型跨领域任务的泛化能力,从而有效应对领域交叉的难题,最终实现由“专才”到“通才”的范式转变。“由专到通”的路径体现了法律大模型从领域专业化向跨领域智能跃迁的演化逻辑,其核心在于基座大模型的技术构建以及后续的泛化拓展。
1.全量训练范式的技术原理。构建领域基座模型是指从头开始训练一个专注于法律领域的基座模型,或者在训练基座模型时以法律领域数据为核心,构建一个法律大模型。构建法律基座模型大致需要经过构建语料库、预训练、指令微调、价值对齐等步骤。其中最为关键的是语言建模过程中对无监督学习和监督学习两类算法的综合运用。
法律垂域大模型的全量训练范式开始于法律语料收集与预训练阶段。在预训练中主要采用无监督学习的方式。所谓无监督学习,是指利用大量未标注的法律文本,让大模型自行学习文本的分布、模式和语义关系。法律领域基座大模型的无监督学习旨在使模型从裁判文书、法律条文等数据中自动识别专业术语的深层关联,譬如通过海量案例习得不同民事案件中“妨害”与“排除妨害”亦或“侵权”与“损害赔偿”之间的逻辑对应。从技术本质上看,预训练是将海量法律文本中包含的离散法律文本单元转化为包含词义、语义和上下文关联性的向量表征,并在此基础上提炼更抽象、更高阶的法律语言模式与结构特征。
在预训练之后,法律垂域基座大模型输出的每一个新字符都是预测该位置上较有可能出现的字或词。如果没有其他技术的配合,它自身只追求输出结果能够获得评价系统的最大概率认可,并不保证结果必定完全正确或真实。因此,法律垂域基座大模型还要引入指令微调、价值对齐等有监督学习等机制。监督学习通常应用于垂域知识调配(能力引导)阶段,即使用标注好的法律数据进行微调,让模型适应具体的法律任务,譬如要引导进行法律要素抽取,大模型需要标注判决书中的“争议焦点”以及“适用法条”从而使模型精准识别案件的核心问题;又如,要引导进行法律推理验证,需要人工审查大模型生成的逻辑链正确与否,防止生成违反司法三段论的结果。此外,价值对齐阶段也会用到监督学习,例如通过强化学习(RLHF)来调整模型输出,使其符合法律伦理和制度规范。
2.全量训练范式的优势。与领域增强范式相比,全量训练范式自始完全采用法律领域数据,其提炼的法律知识纯度更高、法律推理更纯粹。同时,由于不受基座模型原有架构与能力的影响,全量训练范式有望实现更高的法律能力上限和更强的内部可控性。无论是从知识输入还是从知识输出的角度看,法律基座大模型在领域特定任务上的效果通常优于领域增强范式。从长远看,法律基座大模型可以形成更高的专业知识壁垒和领域定制优势。
从知识输入的角度看,领域基座模型具有法律场景的深度理解能力。法律文本往往充斥着专业术语、行话以及复杂的逻辑结构。而领域基座模型通过预先在海量法律文书、法规条文上学习,能够像“资深律师”一样快速扫读、捕捉关键信息。因此,法律基座大模型更懂“法言法语”,其知识吸收效率较之领域增强范式也大幅提升。此外,在法律领域的大规模数据(如法律法规、案例、合同条款)上预训练,模型对该领域的语言风格、专有名词和法律推理具有内置的理解力,后续再进行微调时需要的额外数据和训练成本更低。
从知识输出的角度看,领域基座模型的知识表达更深刻丰富,专注于法律领域的数据训练能够精准捕获该领域的知识和语境。一方面,正是基于对语境的深入理解,领域基座模型文本生成、逻辑推理等任务中达到更高的性能。譬如,领域基座模型在理解相关指令后快速、准确地从海量法律法规、类案和证据中检索出有用的信息供办案人员参考;同时,领域基座模型的知识表达少有法律常识性错误,其知识输出更专业化。另一方面,领域基座模型具有较强的针对性。模型的架构和训练目标完全可以根据法律领域的特性量身定制,可以快速解决司法实践中的“小切口”问题。
3.全量训练范式的劣势。前文提及的领域强化范式往往只涉及调整基座模型百分之一甚至千分之一的参数规模,其法律数据与算力资源的需求相对有限,而从零开始训练基座模型需要大量高质量法律数据资源及数千甚至上万张GPU显卡所支撑的计算资源,训练成本异常高昂。与之对应,由于从零开始研发,缺乏已有基础模型架构的支撑,这可能导致法律垂域基座模型需要面临多次反复,从数据准备到完成预训练可能面临超长的开发周期和较低的迭代速度。此外,全量训练范式意味着更高的技术门槛,往往需要组建大规模的专业技术团队。更为重要的还在于如果模型专注于法律领域,则其跨领域能力可能较弱,难以处理混合任务。这可能导致法律领域基座模型的适用范围存在局限,难以迁移到其他社科领域。换言之,全量训练的法律基座大模型可能会在训练初期表现良好,但对新任务的泛化效果不佳甚至出现较多“幻觉”,反而增加了信息过滤的难度,违背训练模型之初衷。
我国包括数字法院、数字检察在内的数字法治建设亟需构建精准高效的法律垂域大模型。从现实条件与战略路径综合考量,宜采取由领域增强到全量训练的渐进式路线。目前,司法实践中案件数量持续增长,这要求大模型必须具备快速部署和领域适配的能力,而基于通用大模型的微调范式可大幅缩短研发周期,使法律大模型能更快投入司法场景。从法律领域的数据积累情况来看,我国法律语料库建设尚处于发展阶段,高质量的法律语料仍然较少。通过领域增强范式不仅可以快速投入应用,还可在模型迭代过程中逐步完善数据体系,逐步积累高质量的法律语料,最终形成覆盖法律法规、司法解释、裁判文书、法学理论等内容的立体化语料库。从技术可控性的视角看,通用大模型技术日臻完善成熟,配合法律领域微调技术在文书生成、案情分析等场景应用的成功案例,可有效降低生成结果的不确定性。此外,领域增强范式数据资源利用效能更优,算力资源配置更趋合理。相较于全量训练范式更加适配国内算力资源,既可缓解当前算力基础设施的部署压力,也为后续算力升级预留缓冲空间。最后,通过应用领域增强范式可系统培养兼具法律知识与人工智能技术的新型数字法律职业群体,在数据收集、数据清洗、能力引导、价值对齐等关键环节形成知识沉淀,在法律知识图谱构建、专业评估体系设计等关键部分形成技术储备。概言之,由领域增强到全量训练的阶段推进策略既能快速响应我国司法实践的现实需求,又能为法律垂域大模型的持续迭代升级奠定坚实基础。
四、法律垂域大模型的能力之辨
前文明确了法律垂域大模型存在的必要性,并从可行性角度认为应优先选择基于通用大模型的法律领域增强范式。在此基础上,我们需要准确分辨法律垂域大模型的“能力之进”与“能力之限”,从而为加速推动法律垂域大模型创新与应用做好预期管理与认知准备。
(一)法律垂域大模型的能力之进
无论是由通到专的领域增强范式,还是由专到通的全量训练范式,法律垂域大模型研发通过高质量法律数据的供给与法律领域任务的定制优化,在有效缓解法律知识幻觉的基础上提升法律推理的形式可解释性、强化法律价值对齐以及优化生成内容的一致性。
1.法律知识幻觉的缓解。作为高度制度化的规范体系,法律领域对信息精确度和内容真实性的要求已超越一般语义正确性范畴,直接指向法律效力的生成与司法权威的维系。法律的生命在于其精确的适用和客观的呈现,任何偏离事实的陈述或错误的法律解释,都可能导致司法不公,损害当事人的合法权益,甚至动摇法律的权威性。以“马塔诉阿维安卡公司”案(Mata v. Avianca, Inc.)为例,CHATGPT通过自注意力机制对法律文本模式进行过度拟合,生成包含准确格式(案件编号、法官姓名)却虚构案例的“合法性幻象”。法律垂域大模型通过对法律基础知识与法律推理逻辑的模型表征,实现对法律任务的深度理解,进而提升模型在处理复杂法律任务中的表现。其中,领域增强范式通过在法律领域自适应预训练环节引入海量法律数据,并结合在法律领域微调环节对法律任务的定向优化共同约束法律垂域大模型的输出;全量训练范式则完全基于法律数据进行的法律知识表征,自始形成对法律知识的深度理解。实践显示,法律垂域大模型在文书审查与生成类应用、信息检索与归纳类应用、知识问答与案件分析类应用等应用场景下,不同程度上缓解了大模型法律知识幻觉现象。
2.形式可解释性的提升。法律领域高度重视决策和判断可解释性,尤其是裁判文书等具有法律效力的内容“必须建立在充分的法律依据与事实理由的基础之上,并通过合乎逻辑与情理的方式展现出从法律与事实推导到裁判结论的过程”。因此,大模型在法律垂域的应用不仅要求输出结果在内容正确性上尽可能降低法律知识幻觉,还需在可解释性层面真实呈现由法律依据到法律结论的推理逻辑。实践中,法律垂域大模型在预训练过程中通过领域微调嵌入思维链(Chain-of-Thought, CoT)来获得深度思考能力。思维链可以面向用户呈现每个法律决策的过程,从而提升决策的可解释性。以东南大学研发的法律垂域大模型“法衡R1”为例,该模型的深度推理功能可完整展示法律分析过程链条,支持结论溯源验证。通过详细地展示其在解决法律问题时的思考过程,包括对法律条文的理解、对案件事实的分析、对不同法律观点的权衡等,使得法律从业者能够更好地理解和评估模型的输出结果,增强了对模型的信任。有学者指出,法律垂域大模型的诞生将有助于为司法裁判结论找寻正当化理由,并辅助法官完成裁判说理。
3.法律价值对齐的强化。数智时代下,法律实践不仅需要准确适用现行法律规则,更需要结合具体情境深入考量社会伦理、社会效果、正义实现等多元诉求,以实现维护数字正义、保障个人权利的数字治理目标。可以说,价值衡量是法律实践的关键。因此,深化价值对齐,矫正价值取向成为推进法律垂域大模型应用的应有之义。价值对齐指确保AI能捕捉到人类的规范和价值观,理解人类的意思或意图,并以人类的方式行事。法律垂域大模型的价值对齐所代表的是基于人类中心主义向法律人工智能所作出的技术理想化投射,是一种由人类主导的将法律价值观输入法律垂域大模型的技术迭代尝试,旨在让法律垂域大模型内化法律人的思维方式与价值观念,使其能在法律推理、司法决策等诸多工作中与法律人保持一致的价值立场。法律垂域大模型一方面通过从海量法律数据中直接或间接习得法律职业群体共同的价值观念与伦理道德,如将法官职业道德规范纳入训练语料;另一方面,法律垂域大模型还可以通过领域微调在特定法律任务中添加特定的价值约束,如不得以违反公序良俗的方法主张权利。概而言之,法律垂域大模型通过将训练数据中包含的法律原则、伦理规范、社会共识等抽象价值转化为可计算、可验证的技术参数,最终实现法律价值的内化。
4.内容一致性的优化。法律领域的任务通常具有高度规范性,尤为强调生成内容的精准性与专业性。司法实践对于法律文本精确性和一致性的要求较高,引用格式或案例名称的微小差异就可能导致整个法律文书效力的丧失。这也决定了法律垂域大模型在输出一致性上具有极高的要求——相同或相似输入下,多次生成内容在法律术语、逻辑推理、格式规范、法律适用等方面需要保持稳定和统一。法律垂域大模型通过领域增强或全量训练,尤其是结合法律任务的定向强化,可以更稳定地遵循法律任务的格式与逻辑,从而优化生成内容的逻辑与一致性。
(二)法律垂域大模型的能力之限
法律垂域大模型的发展始终伴随着内生性局限,当技术推动大模型在法律知识处理、逻辑推理、价值对齐等维度展现出前所未有的“能力之进”时,其底层架构又塑造了其在法律领域的“能力之限”。明确法律垂域大模型的能力之限为其未来的迭代升级指明了方向。
1.法律知识幻觉困境。尽管法律垂域大模型通过上述技术应对体系在特定场景实现了局部优化,但因未能突破模型基础架构的范式局限,法律知识幻觉无法从根本上避免。实验表明,在逻辑推理和演绎等复杂法律任务中,法律垂域大模型仍旧存在法律知识幻觉现象。首先,法律垂域大模型高度依赖法律数据的供给,而法律领域数据的可获性与可用性困境,以及法律数据的动态更新性使得法律垂域大模型难以完全回应法律知识的复杂性,从而诱发法律知识幻觉。其次,法律垂域大模型主要依赖TRANSFORMER的技术架构,其善于通过参数空间内的向量运算,将训练数据中的法律文本模式转化为概率化关联网络,从而捕捉法律语料所呈现的模式。然而该技术架构绝非真正“记忆”所有训练的法律知识。其依赖概率的内容生成在涉及高精准性任务时,如复述法律条文时,容易产生幻觉;再次,法律垂域大模型生成过程本质上依旧是对语义关联路径的统计性延伸与字符串概率映射,而非真正意义上的法律逻辑推理,与人类的高阶认知能力的规范推演有本质差异。举例而言,同样是处理类案检索分析、法律文书写作、法律咨询等法律任务,面对缺乏实体法依据或判例支撑时,法律人在法律推理过程中往往会选择主动中止推理或切换路径以确保结论合法性;而法律大模型却会受限于训练数据概率分布,无法识别法律依据的实质性缺失,甚至会通过高频词统计强行延续逻辑链条,“自行脑补”生成缺乏法理根基的伪逻辑结论。正如柏拉图洞穴隐喻所揭示的认知困境——无论何种范式,法律垂域大模型的本质是“海量法律语料+统计模型优化”,其输出的知识投影,始终与其所模拟的真实法律知识体系保持着本体论层面的距离。实际上,“对于任何可计算的大语言模型而言,无论其模型架构、学习算法、提示技术或训练数据如何,幻觉现象都是不可避免的”。
2.法律可解释性假象。前文提及的法律垂域大模型于可解释性上的优化,实际上是一种可解释性假象。表面上,大多数采用思维链提示的模型在生成答案时,会先输出一段看起来像是中间推理步骤的文本,然后才生成最终答案。也就是说,深度推理的文本通常出现在答案之前,使输出看起来像是一个先“思考”再“回答”的过程。但实际上,大模型生成答案和思维链的过程是一个单一的自回归生成过程:模型在逐步生成每个token时,其前面的内容(即思维链和答案)都是相互依赖、互为条件的。换句话说,尽管用户在交互界面通常看到的是输出过程中推理步骤在前、答案在后,但它们是在同一连续生成过程中“同步”地完成的,而不是先独立计算出完整的思维链后再生成答案。实验证明,通过在输入中添加特定的偏置特征(如改变选项顺序或暗示特定答案),模型的预测结果会受到显著影响,但模型在思维链中却从未提及这些偏置特征。这表明思维链可能只是模型为了合理化其预测而生成的,而非真实反映其决策过程。这实际上也说明法律垂域大模型在多轮对话中的解释仍是神经网络下由占据不同权重的多种因素共同影响的结果,思维链并不展现模型的真实决策逻辑。
从可解释性的角度看,法律垂域大模型通过思维链机制对人类认知的拟合本质上是一种“后验合理化/事后合理化”(post-hoc rationalization),其关注将推理过程对外以可理解的方式表现,即面向用户的“可解释性”。而可解释性的另一个维度则要求在数学上实现对神经网络内部逻辑的严谨客观解释,神经网络的“黑箱”问题通常便是在这一维度上讨论。因此,嵌入深度思考能力的法律垂域大模型通过思维链等营造了一种面向用户的、表层的、外在的、可读的可解释性,但实际上并不真实反映模型内部的计算过程,深度思考内部复杂的算法机制仍然不透明。尽管法律论证在某种意义上也是对结论的事后合理化,法律人表面上做出的决策或多或少也伴随着“人脑黑箱”,但作为人造系统的法律垂域大模型缺乏类似人类法官的制度性权威,其决策的可解释性对于塑造人们对系统的信任程度而言至关重要。法律职业群体必须充分意识到上述可解释性假象存在的风险,避免误将其深度思考过程等同于模型真实决策过程,从而过度信任或依赖法律垂域大模型的表面解释,逐渐丧失进行真实法律推理的动力和能力。因此,如何在法律垂域大模型的建构和应用过程中引入人机协作的推理验证机制,是未来尝试突破可解释性假象、推动法律垂域大模型能力进一步升级的关键问题。
3.法律价值权衡缺陷。法律垂域大模型的价值均衡是指大模型在多重法律价值冲突的具体情境中所具备的作出价值权衡的技术能力。可见,法律价值对齐是法律价值权衡的基础,而法律价值权衡是法律价值对齐的延伸。尽管法律垂域大模型在融入法律价值层面取得了进展,但其仍然面临价值权衡的缺陷。一方面,即便通过价值对齐优化,法律垂域大模型仍然难以充分结合案件细节进行精准价值判断,从而影响其在复杂法律问题中的技术可信赖性。这源于法律实践中的法律价值与法律事实多元复杂,在指令输入不足的情况下,大模型输出结论可能会出现偏差。甚至在特定场景下作出错误取舍。“即便为大模型输入自由、平等、公正等人类共同价值观,也必须处理不同价值之间的冲突与协调问题”。价值输入体现的是法律垂域大模型所需具备的初阶能力,更深层次地是需识别案件细节,协调法律内在价值冲突的高阶能力。若脱离具体案情,仅凭抽象、静态的价值输入可能导致价值衡量结果的机械化与片面化。另一方面,价值对齐可以被理解为人类控制论在法律垂域大模型领域的延伸性实践,这一过程蕴含着人机价值对齐的理想式、预设式价值对齐幻觉,即预设了静止且稳定、统一且有序的价值观合集,并可被技术代码化为法律规则的客观价值表达。这种技术优化机制隐含的“人类价值”所预设的是单一的操控性主体,体现人类中心主义的控制幻想。忽视了法律价值判断根植于法律人的个体思维的现实逻辑。此外,法律文本中所包含“合理”“适度”“酌情”等表意模糊的法律术语的具体适用受法律环境、个案事实、主观判断等多重因素影响,难以直接转换为技术规则。价值判断的复杂性与主观性使价值对齐机制在完整复现法律人价值衡量过程时面临技术困境,从而导致价值判断偏差、价值位阶误判等问题,这将限制法律垂域大模型在复杂法律实践中的精准适用。
4.内容一致性悖论。大语言模型的内容生成具有统计性、随机性或概率性,并非基于严格规则的稳定内容生成,从而导致相同输入下无法稳定生成相同或相似的输出。考虑到法律垂域大模型百亿、千亿乃至万亿级别的参数量,即使针对同一个问题,每次生成策略的微妙差异,也可能产生蝴蝶效应般的巨大扰动。极端的例子是同一提问多次输出所得的答案处于正确与谬误光谱的两端。从底层逻辑看,上述不一致性和不稳定性根植于其概率学本质与法律文本精确性要求的内在矛盾。申言之,大模型作为自回归生成器,其输出取决于算法的局部概率选择,而非符号学规则的确定性推导。每次生成结果均通过函数计算词表概率分布,并最终选取极大值对应的词汇进行输出。这一机制导致输出结果天然具有统计波动性。针对相同法律问题,大模型生成之内容亦可能因参数的微调或上下文的随机采样产生显著差异。即使要求大语言模型进行精准的字词援引,大模型也可能因采用机制的随机性而在每次输出时有细微的字符级差异,难以保证输出结果的绝对稳定。
此时,一种可行的方案是降低法律垂域大模型的“温度参数”。所谓“温度参数”是大模型生成的一种控制机制,温度参数越高,则意味着大模型生成内容的随机性越大。理论上,当大模型温度参数设定为0时,大模型每次生成都倾向于选择概率最高的词汇。此时,在相同输入时,生成内容通常具有一致性。然而从根本上说,大模型不同于符号学派主张的基于规则的人工智能,后者具有机械适用法律的固有特征。而大模型的优势就在于灵活性、多样性、适应性与创造性联想,其代价是每个词语的选择都是随机性的累积。相反,若追求绝对的一致性则可能迫使大语言模型降格为符号主义框架下形式规则的执行工具,从根本上消解其技术革新之价值。由此,法律垂域大模型就可能面临“一致性悖论”——一方面,法律领域的任务需求期待法律垂域大模型能够提升输出的一致性;另一方面,当法律垂域大模型输出绝对一致时,又牺牲了模型的多样性和灵活性,限制了大模型在解决复杂法律问题时的创造性。
结语
承认法律垂域大模型的“能力之限”绝不意味着否认其应用前景。事实上,“能力之进”维度已明示其价值所在。从人类发展历史看,技术瓶颈往往可以成为技术迭代甚至革命的催化剂。实践中,不同技术主体正在持续探索运用检索增强、大小模型协同等技术进一步推动法律垂域大模型的演化与发展。法律垂域大模型的深度应用有望突破单纯的效率提升的工具主义定位,逐步演变为重塑司法业务组织方式与驱动司法制度变革的系统性工程。在这场技术与制度的交响中,我们应以法律垂域大模型为支点,探索法律领域与数智技术双向塑造的中国范式——既通过技术赋能实现公正司法,更秉持“以人为本”的价值立场守护法治文明的本质内核,为人类社会的智能化、法治化转型贡献东方智慧。