大模型纷纷支持长文本？小心“欺诈”与“侵权”！-司法文明协同创新中心

浏览次

【法宝引证码】CLI.A.4127753

【学科类别】人工智能

【出处】微信公众号：肖飒lawyer

【写作时间】2024年

【中文关键字】大模型；长文本；著作权

【全文】

　　如果从2022年末“AIGC”这个词出圈算起，AI大模型行业几乎每一年都会卷一个新的主题，今年大模型行业第一个“开卷”的主题恐怕就是长文本。

　　01AI长文本处理卷到了一个什么地步？

　　AI长文本卷到什么程度？如果把时间调到一年前，彼时新闻还是GPT-4吊打ChatGPT，GPT-4的一大噱头就是“长文本处理能力”，多长呢？彼时GPT-4能处理超过25,000个字词的文本，允许使用长文本的内容扩建、扩展对话以及进行文档检索，分析任务。在当时的样例中，用户引用了外部长文本网页（网页文字差不多2,0000字）并让GPT-4进行分析，那时候的噱头还是“处理长达万字的文本可以方便用户更为随性地将多个文档的文义归纳等工作统统交给机器来完成，因为GPT-4支持长达万字的输入能力，因而无需用户预先对问题进行压缩。”

　　飒姐团队再来带大家看看仅仅过去一年之后，当时GPT-4引以为傲的长达万字的长文本处理能力被吊打到了一个什么地步。国内AI新锐“某之暗面”公司旗下的大模型产品Kimi在今年3月就宣布支持处理200万字的无损长文本分析，此后各大国产大模型公司纷纷跟上，某度的文心一言免费开放200万-500万字的长文本处理能力，360也紧随其后，500万字长文本处理能力是吧，跟上！当各位老友以为500万字长文本处理已经够用时，另一大厂的产品通义千问直接卷到了1000万字。一年前，GPT-4的长达2万字的长文本能力已经可以作为宣传的噱头，如今恐怕500万字-1000万字的长文本处理能力才是标配。

　　02长文本，又激发了著作权侵权难题？

　　对于长文本处理的出现，飒姐团队可谓极为欢迎，法学研究嘛，一篇刑法领域的期刊论文两万字属实正常，如果是博士论文或者其他专著，20万字恐怕就是一个打底的数字。如果想利用AI批量分析这样的长文本时，只能支持一次几千个汉字输入的大模型显然不够用。就拿ChatGPT免费版来说，一次处理的文本最长长度不过两千个汉字，如果真要分析一篇几万字、十几万字的文档的时候就必须要拆分成很多小段，使用体验不能说不好，只能说非常糟糕。

　　这其实就是长文本处理最有优势的场景。在某些专业领域，需要对专业性很强、阅读费时费力的长篇文章进行分析时，具有长文本处理能力的大模型就具有极高的竞争优势。飒姐团队预测，具有长文本处理能力的大模型未来很可能成为金融、法律、科研、教育等领域的刚需，这些行业的从业者可以利用具备长文本处理能力的大模型快速研读、分析财报，快速归纳总结判决书及其他法律文本、科研论文的内容，进而快速研判案情、分析法律条文、总结深度文章。

　　当然，提到了长文本的好处，其可能带来的法律问题也逐步显现。目前一些国内大模型企业鼓励用户上传长文本和链接，直观体验长文本大模型的魅力，同时用户上传的这些几万字、十几万字甚至几十万字的长文本也会进一步成为大模型训练素材的一部分。

　　问题就出在这里，由于大模型支持长文本处理，之前用户做不到把一整本著作“喂”给大模型，咱们就以ChatGPT免费版而言，用户只能一次将一两千字的内容“喂”给大模型，而这些内容仅仅是某个文章或者某篇著作中的一小部分，或者仅仅是用户自己归纳总结某篇著作而形成的内容，这些著作的片段和用户总结某著作的内容，其引发的著作权争议还没有那么突出。但是当大模型可以发展到将一整本书、一整篇学术论文一次性“喂”给大模型时，相应的著作权问题就会愈发显现出来。

　　当然，将他人的一整本作品“投喂”给具有长文本处理能力的大模型到底构不构成著作权侵权，这个问题其实并不新鲜，国内可能有部分律师认为未经许可将作品“投喂”给大模型可以构成合理使用，进而不构成著作权侵权，但这个观点在司法实务中似乎并没有得到支持。实际上，《北京市高级人民法院侵害著作权案件审理指南》第7.10条明确规定“被告未经许可通过信息网络向他人提供作品，其提出属于‘为个人学习、研究或者欣赏使用他人已发表作品’的合理使用抗辩，不予支持”这就有些尴尬了。当然大模型领域的从业者也不要“谈著作权色变”，毕竟AI这一朝阳产业迸发出的生产力是巨大的，同时也会进一步倒逼著作权法领域的完善。

　　03长文本or RAG，欺诈不可取

　　除了长文本处理引发著作权问题，还有一个更为直接的问题也需要引起足够的重视，那就是长文本处理到底是真的长文本处理还是噱头？实际上业内对于支持长文本处理的大模型的真实性提出过质疑。质疑者认为一些支持长文本处理的大模型并不是真的在“处理”长文本，直白点说，并非真的一个一个字的“读”了长文本，而是采用了某种有损压缩技术（比如RAG技术），这个技术可以实现一个看似处理了长文本的假象：大模型会对上传的文本进行压缩，比如只读取每章节的第一句话，或者每章节的最后一句话，或者只读取整篇文章的摘要部分、结论部分，其余部分全部不读取，然后再将这些已经读取的内容（实际上加在一起可能一篇20万字的著作，这样就可以只读取两千字）进行归纳总结，进而再把相对应的内容输出给用户。

　　这样处理就会给用户一个误导，以为自己“喂”给大模型的一整部著作都被读取了，其实根本没有，而这样归纳总结出的内容显然是片面的。如果某个大模型企业真的这么做了，即利用RAG技术或者其他有损压缩技术充当处理长文本的大模型，并以“长文本处理”向用户宣传，这就极易构成欺诈，其中的法律问题可比著作权侵权要严重得多。

　　在大模型如此内卷的现在，最重要的就是做到合规，千万不要预设用户不懂技术，否则很可能带来大大麻烦。

【作者简介】
肖飒法律团队，一支以学术业务立身的法学硕博团队。垂直深耕于“金融+科技”行业，对创新业务有独特的研究优势和一线实务经验。团队创始人肖飒女士，系中国互联网金融协会申诉委员、中国银行法学研究会理事、首批北京市涉案企业合规第三方监督评估专业人才、中国人民大学法学院法硕实务导师、中国政法大学法律硕士学院兼职导师、中国社科院产业金融研究基地特约研究员、工信部信息中心《中国区块链产业白皮书》编委会委员。著有虚拟币规制畅销书《ICO黑洞》、合著学术书籍《网络金融犯罪的刑事治理研究》等。在《证券时报》《人民日报海外版》《财新》《经济观察报》等发表过近百篇署名文章。

稿件来源：北大法律信息网法学在线

原发布时间：2024/5/30 14:02:15 　

你在这里