【中文摘要】个人信息保护立法关注对信息处理者行为的规制,相对而言,对信息主体在信息处理过程中的主动性关注不足。随着技术的飞速进步与信息保护需求的演变,信息主体对个人信息的自我保护更加主动。对此,《混淆:个人隐私自我保护手册》一书提出将“混淆”作为一种自我保护手段,并分析了其理论基础与实践意义。混淆作为一种“用户自处理”的方式,让信息主体得以在信息中嵌入虚假或误导性信息,削弱信息收集的质量,抵御信息处理者的过度收集与分析行为,为信息主体在数字空间中提供了一道类似于“数据窗帘”的虚拟屏障。混淆也改变了信息处理的基础逻辑,潜在变革了各主体在数据市场中的权利义务关系,其合法性和合理性需要在现行法律框架内加以审视与明确。
【全文】
一、引言
信息社会对个人信息的收集和使用几乎无处不在。无论是社交媒体、智能设备还是商业平台,都在不断地捕捉、分析个人信息,并用于精准营销、风险评估等商业目的。面对信息收集技术的迅猛发展,信息主体很难在“不同意就离开”的两难选择中拒绝信息被收集。针对这个问题,美国的布伦顿(Finn Brunton)和尼森鲍姆(Helen Nissenbaum)在《混淆:个人隐私自我保护手册》[1](以下简称《混淆》)一书中提出了“混淆”(Ob-fuscation)的概念,主张在真实数据中掺入虚假或误导信息,使信息收集者难以准确识别和追踪。[2]这种方法可以赋予信息主体更大的自决权益,直接降低被收集信息的质量,降低自身被侵权的可能。从形象上理解,混淆可以被比作“数据窗帘”(digital cur-tains)。[3]就像窗帘阻隔外界视线一样,混淆在信息主体与信息收集者之间制造了专门的屏障,阻挡外界对个人信息的过度剖析和利用。
从主动降低数据质量和效用的特性来说,混淆与个人信息匿名化(以下简称匿名化)非常相似。匿名化是指“个人信息经过处理无法识别特定自然人且不能复原的过程”。[4]二者主要的目标都是使得外部分析者难以利用收集的数据来识别信息主体。匿名化在个人信息保护立法中被赋予了特别的功能,我国《个人信息保护法》第4条、《网络安全法》第42条、《民法典》第1038条均对匿名化作出特别规定。既然匿名化已经在上述多个法条中体现,可否基于法律评价的经济性,将混淆作为匿名化的一种特殊形式,统辖到现有法律框架下,而无须单独讨论呢?答案是否定的。从定义上来说,二者并不等同——匿名化是通过“有/无(识别性)”,而混淆是“多/少(冗余信息)”来各自实现个人信息保护目标。具体而言,匿名化是信息处理者通过差分隐私、联邦学习、K-匿名等方式删除或改变可以直接识别信息主体的信息,主动降低信息质量,在规范信息处理活动、保护信息主体权益的前提下,促进个人信息的合理使用。[5]但混淆是通过在数据中添加虚假信息来增加分析的复杂性。虽然数据中依然存在可识别的个人信息,但明显增加了个人信息被单独挑出(singleout)的成本。混淆可以作为匿名化的有力补充手段,为信息主体构建一道额外的“防护网”。不同于确认个人信息权益与限制信息收集者行为的保护方式,混淆在信息收集前进行“自处理”,使信息主体从“被动保护对象”转变为“主动参与者”。[6]因此,在个人信息保护领域,混淆具有成为独立学术议题的潜质与必要。
由此展开,信息主体的主动保护能力不仅为现行个人信息保护法律体系带来了新的启示,也为个人信息权益保护、数据资源的利用效率及企业的竞争力等议题提供了不同的分析框架和研究进路。本文的问题意识亦由此引发:混淆在赋予信息主体更多选择权的同时,其正当性及所引发的不同主体间法律责任问题应当如何评价?基于此,本文将以《混淆》一书为起点,分析各类主体如何回应混淆所带来的挑战和机遇,并尝试解答混淆为何可以成为个人信息保护新范式。[7]
二、个人信息保护的新挑战
2023年,美国、中国、德国、日本、韩国5个国家数字经济总量超过33万亿美元,同比增长超8%;数字经济占GDP比重为60%,较2019年提升约8个百分点。[8]在大数据、人工智能和物联网技术的推动下,“零隐私权”(zeroprivacy)已经成为信息主体面临的主要隐私困境。[9]大型企业和数据中介利用收集的信息进行个性化广告、市场分析和风险评估,形成了庞大的利益链条,使得信息主体越来越难以有效地阻止其信息被收集和利用。[10]信息收集技术的对象不仅限于显性信息,还包括对隐性行为的监测和分析,诸如个体的浏览记录、位置信息等皆可成为信息分析的对象。我国《个人信息保护法》和欧盟《通用数据保护条例》等代表性立法,都尝试通过明确规定信息处理者的义务来保护信息主体权益——因为信息处理者掌握了大量技术手段,信息主体在这一过程中往往处于被动和不知情的状态。现实中,这种方式的保护效果不是十分理想。以处于个人信息自决权核心地位的“知情—同意”规则为例,虽然信息主体在理论上对信息有控制权,但现实中,由于个人信息条款的复杂性和技术门槛,信息主体往往无法真正理解其信息的流向和用途,使得“同意”流于形式。[11]在当前信息收集和利用无处不在的环境下,特别是在群体隐私和预测性隐私等新出现的法律问题面前,信息主体对自身信息的保护效果存疑。
(一)数据维度的挑战:群体隐私保护问题
伴随数据的汇聚与分析,具有共同属性或行为特征的群体更容易被识别和分析。群体隐私(GroupPrivacy)的问题也开始慢慢受到公众的关注。群体隐私关注在数据分析和处理中具有共同属性或行为特征的群体的隐私。传统的隐私观念多聚焦个体层面的信息保护,而群体隐私不仅涉及个体,更关注群体作为一个整体的信息安全。在数字经济的背景下,来自云计算、物联网、社交网络等不同渠道的个人信息与行为数据急剧增长。[12]实践中,标签化(tagging)已成为大多数互联网平台和应用处理用户数据的标准方法。这些标签可以基于用户行为、兴趣、地理位置、社交互动等多种维度进行分类。借助数据标签化,复杂的大数据更加可管理,更有利于数据归纳、分类和分析,也更容易被用于算法训练、市场分析、广告投放等具体场景,为进一步的数据挖掘和模式识别提供了现实基础。[13]米歇尔·雷(MicheleLoi)和马库斯·克里森(MarkusChristen)认可了群体拥有隐私权的可能性,围绕群体隐私提出了对封闭类群体隐私、对抗性群体隐私、推导类隐私三个概念的界定,并认为个人隐私的保护逻辑是构建个人与其他人之间的“外部边界”,形成“个人的自主性身份”。[14]在国内学界个人信息保护备受关注的当下,部分学者也开始注意到群体隐私理论在解释用户画像侵权风险等问题上的作用,试图通过理论改造等方式引入我国个人信息保护体系。[15]
群体隐私保护的难点在于如何在不明确区分每个个体的情况下保护整个群体的隐私。这需要有意识地处理和保护群体共有的数据,避免因数据泄露或不当使用给群体成员带来连带风险。但实际操作中,数据的收集和分析往往复杂多元,很难做到在不影响数据利用价值的同时保护群体隐私。特别是在数据共享和分析的过程中,技术手段有限或者隐私意识的不足,都会导致群体共有的敏感信息被泄露。由于群体成员的关联性,一旦这些信息泄露,会使整个群体的隐私受到损害。
(二)算法维度的挑战:预测性隐私保护问题
与群体隐私侧重数据维度不同,预测性隐私关注通过大数据分析和机器学习,在未经个人明确同意的情况下,对个人行为和倾向进行预测的行为。当前,机器学习中的数据分析和数据驱动方法是许多工业领域最受欢迎的计算技术之一,可以根据大量行为和使用数据来预测与目标群体或个人相关的敏感属性、未来行为或成本、风险及效用函数。通过大数据分析和机器学习,未经个人明确同意对个人行为和倾向进行预测的行为越来越多。这种预测大部分是在个体不知情的情况下进行的,由于这些决策可能基于对个体行为的预测而非实际行为,这使得个人信息侵权更加隐蔽,个体可能很难察觉到自己的隐私权益已经受到了损害。即使数据被匿名化,依旧能通过分析来预测个体的行为或特征。例如,通过分析大量用户行为数据,即使数据中的个人身份信息被隐藏,仍然可以利用机器学习模型找到其中的模式,预测个体的偏好、行为等。有学者甚至指出,如果预测分析被用于预测关于单个个体的敏感信息,或者根据许多不相关的个体提供的数据对个人进行不同的对待,将会产生严重的伦理和个人信息保护隐患。[16]
三、混淆的实现方式及其保护个人信息的正当性
从上文的分析中,可以取得一个基础共识:个人信息被广泛收集和使用,信息主体往往难以掌控自身数据的去向和用途,而信息收集者能通过对大量用户数据的分析与整合形成全面的用户画像。在这个过程中,混淆通过干扰和虚假数据生成,削弱了数据收集者对信息主体行为的精准掌握,改变了数据市场中的权力分配,帮助信息主体在数据关系中重新获得一定的平衡,但也带来了一定的质疑:混淆如何证明其正当性?
(一)混淆的两种实现方式
混淆的核心是通过生成虚假数据、添加噪声、制造随机行为等方式掺入一些“虚假”或“无用”的信息,让信息看起来真实却不准确。混淆主要通过以下两种方式具体实现:第一,噪声添加,即向信息中注入随机或无关的信息来扰乱分析,让真实信息“淹没”在虚假信息中。当信息分析者尝试识别和理解信息时,噪声信息会使真实信息变得模糊,降低其价值。布伦顿在《混淆》一书中以“混淆搜索”(TrackMeNot)浏览器插件为例解释了这一方式。广告商和数据分析公司通常依赖信息主体的搜索和浏览行为来推测信息主体的偏好。“混淆搜索”插件通过向搜索引擎发送随机的搜索请求来掩盖信息主体的实际搜索行为。这些随机的搜索词条相当于“噪声”,它们被混杂在信息主体的真实搜索内容中,使得信息分析者难以判断哪些请求是信息主体真实的兴趣点。例如,在搜索“健康饮食”时,TrackMeNot会自动生成一些如“新年派对活动”“宠物护理”等随机的无关词条。虽然这些词条会被记录在信息收集者的数据库中,却从一开始就失去了大部分应有的商业价值。[17]第二,数据掩盖,制造虚假的数据流来迷惑信息收集者。除了噪声添加之外,混淆还可以通过制造虚假的数据流来掩盖信息主体的真实信息。这种方法常见于定位服务,如位置信息保护工具“隐身斗篷”(CacheCloak)。它根据信息主体的实际位置生成若干条随机路径,与信息主体的真实行踪混合在一起。即便是定位技术非常精确的应用程序,也无法追踪到信息主体的准确位置。信息主体的路径被分散在多个不同的地点和方向上,使得信息收集者无功而返。它的功能好比在一幅清晰的画作上泼洒一层杂乱的色彩,使得观看者难以看清原有的内容。[18]
总的来说,这两种方式并不是让信息彻底“隐身”,而是在真实信息中“埋入”大量虚假信息,让信息看起来“模糊”,使信息失去了判断意义,从而达到保护个人信息的效果。布伦顿将这一混淆的实现过程比喻为“数据迷宫”:即便信息收集者掌握了信息主体的海量信息,也会因被误导而难以获得有效的洞察。这种迷宫效应在信息过载的环境中体现得更加明显。[19]在一个充满噪声和虚假信息的体系中,信息收集者需要耗费更多时间和资源来筛选和过滤信息,而这个过程的结果往往是低效的。即使最终得到一些有效信息,其准确性和可靠性也会受到严重影响。这种混淆效果不仅能保护信息主体,还能起到延迟或阻碍信息收集者分析的作用,使其难以基于收集到的信息得到准确的信息主体画像或作出决策。例如,在上文的群体隐私场景中,混淆就可以发挥作用,保护那些因为共享某些敏感数据(健康状况、种族、经济状况等)而被归为同一群体的个体,减少通过数据分析揭示个体隐私的风险。
(二)混淆对个人信息保护的正当性
质疑的声音认为,虽然信息主体通过混淆技术保护了自身的个人信息,但对于依赖数据的其他用户和服务提供者可能产生不利影响。例如,混淆技术可能使广告投放、内容推荐等个性化服务效果减弱,进而导致用户体验下降。伦理上,混淆的使用者在保护自身利益时对他人权益造成的干扰和潜在损害,也引发了公平性和道德的争议。对此,《混淆》一书的两位作者熟练地应用政治经济学知识工具,来证明混淆的正当性。尽管保护信息主体和个人信息的法律和政策并不少,但这些规范性资源往往无法及时跟踪技术和商业的发展,使得信息主体在数据保护方面更加脆弱。技术优势上的差距、数据经济的驱动、法律和政策的不完备以及社会与文化因素的影响,共同造成了信息主体与信息收集者之间的信息不对称,推动信息收集中的权力偏向一方进行动态积累,普通信息主体更难以有效保护自己的隐私。混淆则能使信息收集者无法轻易提取有价值的信息,缓解权力不对等问题。虽然混淆不乏被批评为不透明和不诚实的行为,但作者并不认同这类观点。他们认为,在一个不公平和不对称的监控体系中,完全透明的信息收集会被滥用,直接导致更多的隐私泄露和不公平待遇。混淆作为一种自我防御手段,通过增加数据分析的复杂性和成本,能在一定程度上缓解信息与权力的不平衡,恢复并提升公众对信息收集和使用的信任。
个人信息权益的核心在于信息主体对自身数据的控制。传统的信息保护主要依赖于法律法规对信息收集者的约束,但在实际应用中,这种保护方式的有效性往往受到质疑。[20]在数据经济中,信息主体和信息收集者之间的地位通常是不对等的。在当前信息收集无处不在的环境中,混淆让信息主体在这些数据的收集过程中施加干扰,在技术层面构建“数据窗帘”,不仅让信息主体能够控制其数据的公开程度和准确性,无须依赖外部干预即获得信息保护,直接赋予信息主体更多的控制权与自主性,避免数据被无节制地收集和利用,更在一定程度上弱化了信息收集者对信息主体行为的掌控,打破信息收集和使用中的单向性权力关系,让数据经济的运作更加平等和公平。
混淆的正当性在于其并非以破坏市场为目的,而是通过合法的干预手段实现数据保护的目标。信息主体通过使用混淆技术在数据中加入虚假信息、噪声等手段,确保个人数据不被过度滥用,从而达到隐私保护的效果。从权利角度来看,混淆技术是一种“防御性”手段,而非“攻击性”行为,符合自我保护的正当性要求。数据被视为“新型资源”,能够直接转化为商业价值。数据收集者往往凭借自身的技术、平台资源和用户规模,通过持续的数据积累,建立庞大的信息数据库。这些数据使其不仅可以通过精准的广告投放、用户行为预测等手段获取利润,还能为算法优化、产品推荐等提供数据支持,从而在市场中逐渐形成可观且客观的竞争优势。这种“数据垄断”也自然导致了信息资源的高度集中,使信息主体在数据市场中处于弱势地位。混淆技术的出现,为打破数据垄断提供了可能。混淆可以将信息主体从数据分析的“透明人”状态中解放出来,使其能够在数据关系中重新获得一定的控制权。这种基于技术手段的自我保护,不仅帮助信息主体削弱了数据收集者的优势,还在一定程度上为数据市场的竞争注入了活力,防止数据资源的进一步集中。要使混淆技术成为数据市场的平衡机制,其合法性与正当性需要得到认可。从法理上看,信息主体在信息保护中的自我防护权是隐私权的一部分。法律在保护信息主体隐私权的同时,应当承认信息主体对其数据的控制权。而混淆技术作为信息主体对抗信息收集者的技术手段,其正当性可以通过个人隐私权和数据主权得以保障。
进言之,混淆作为个人信息保护的新概念和新技术范式,使信息主体能够主动参与到个人信息的保护中来。这种主动性不仅挑战了传统个人信息保护立法的思维模式,也促使人们反思现行法律架构的合理性。传统立法之所以没有充分考虑信息主体的自主性,很大程度上源于立法者的“保护”思维。正是因为信息主体与信息处理者之间长期悬殊的技术地位,导致信息主体在面对信息处理者时几乎只能处于弱势地位,需要法律的外部保护来弥补其权力的不对称。当前立法重点在于通过强制性规定来约束信息处理者,而非激发信息主体自身的保护潜力。在这一框架下,信息主体被视为被动的保护对象,而非积极的参与者。法律通过规定信息处理者的责任和义务,如同意条款、数据安全措施、信息主体权利等,试图为信息主体提供全方位的保护。然而,信息技术的快速发展和持续变化使得立法者在制定法律时难以预见未来技术应用的具体形态。传统立法往往采取较为保守和谨慎的立场,主要关注已经成熟的技术和明确的风险,而未能充分考虑技术进步带来的新型信息保护方式。
四、与混淆相关的四类主体法律关系及相关问题分析
混淆虽然具有正当性,但在实际应用中也面临一系列挑战。对信息主体而言,信息收集者可能会采取更复杂的算法来消除混淆的干扰,使得信息主体采取手段保护个人信息变得更加艰难。对于信息收集者而言,如何在混淆数据的环境中有效处理用户数据、维持商业模式的稳定性也是其面对的挑战。对于监管主体而言,信息主体滥用混淆技术可能带来虚假信息泛滥、数据质量下降等负面影响。而对于这些负面影响,混淆(技术或工具)开发者是否就可以置身事外呢?从这一系列的主体责任追问的背后来看,其本质是混淆作为一种新兴的个人信息保护方式所造成利益的再衡量。[21]混淆改变了个人信息处理的基础逻辑,不仅潜在改变了数据的可信度和使用模式,而且重新定义了各主体在数据市场中的权利义务关系,对各方主体产生了新的、多层面的法律和市场影响。因此,有必要针对与混淆相关的四类主体的法律关系及其之间的法律问题加以初步探讨。
(一)混淆技术开发者与信息收集者:不正当竞争与技术中立抗辩
混淆的一个关键问题在于其对平台和信息处理者市场竞争利益的潜在影响。混淆在阻止数据垄断、降低数据集中化风险方面提供了一种有效手段,使信息主体在数据市场中重新获得一定的控制权,为数据市场竞争格局带来了新的可能性。信息处理者通常依赖于收集和分析信息主体数据来优化服务、提升信息主体体验、进行精准广告投放,以及制定市场策略。许多平台的商业模式依赖于大量的精准用户数据进行分析和利用。如果混淆被广泛采用,这些平台的商业模式将受到根本性威胁。以商业模式最为成熟的流量广告为例,由于混淆的大规模使用,广告平台无法再依赖信息主体的数据进行精准投放,订阅制内容平台无法准确识别信息主体偏好并推荐内容,精准投放广告的效果势必大幅下降。平台为了应对混淆数据,需要投入更多的资源进行数据清洗和分析。这些额外的技术成本将直接增加平台的运营成本。与此同时,混淆数据的存在导致数据分析结果的不确定性增加,这些额外的投入并不会带来相应的业绩增长。
信息主体使用混淆技术保护个人信息的过程中,第三方工具(软件、插件等)扮演了重要的角色。那么,这些工具的开发者和提供者,是否需要为工具的使用结果承担法律责任呢?技术中立原则作为常见的抗辩理由,会被用来保护技术开发者,使其不因技术被用于非法目的而承担法律责任。一个基本的逻辑例举是:正如枪支制造商不对使用者的犯罪行为负责,开发者也不应对信息主体使用其技术进行的违法行为负责。当然,其前提是技术本身并非为违法目的而设计。除非直接参与或教唆信息主体利用这些工具从事非法活动,否则,开发者或平台提供者就不应被追究责任。同样,混淆工具的开发者通常会主张其工具是中立的,目的是帮助信息主体保护个人信息,而非用于干扰他人的个人信息处理行为。然而,技术并非总是中立的。技术的设计、开发、推广方式都蕴含着某种价值导向,或预见到特定的使用后果。一些混淆工具的设计包括大量自动化的虚假信息生成功能,其本身就会不可控地对个人信息处理者造成显著干扰。在混淆被用于干扰他人合法权益的情况下,技术中立原则并不能完全免除开发者的责任。
从法律角度来看,判断第三方工具是否构成不正当竞争的一个关键因素在于工具本身的合法性与合理性。第三方工具的开发者通常不对信息主体的具体使用行为负责。一般而言,如果工具的设计和使用目的符合合法的信息保护需求,并且其使用方式没有超出合理的范围,工具开发者通常不需要承担法律责任。相反,如果工具的设计或使用方式明显超出了信息保护的合理范围,导致平台的正常运营受到严重影响,那么工具的开发者会被认为参与了不正当竞争行为,需要承担相应的法律责任。因此,在处理技术中立性问题时,应当考虑以下三个因素。
一是开发者的主观意图。开发者是否明知工具对平台或信息主体造成损害,或是否因有过失而未能预见这种损害?损害的程度是否足以构成民事赔偿?损害是否可以通过经济补偿来弥补?通常情况下,如果开发者明知或应知其工具将被用于非法目的,或其设计的功能显然超出了合理的信息保护范围,技术中立的抗辩就不可成立。如果开发者的初衷是保护信息主体,并且在推广时明确声明了工具的使用范围和合法用途,此时开发者通常可以主张技术中立来减免责任。如果开发者明知其工具会被广泛用于干扰个人信息处理或破坏平台运营,且未采取合理措施进行限制或警示,那么开发者被认为具有主观过错,需要承担相应的法律责任。
二是技术工具的实际效果。如果工具的使用在实践中广泛用于侵害他人合法权益,如大量干扰个人信息处理或导致平台运营困难,开发者需要承担相应的法律责任。即便开发者的主观意图是合法的,工具的实际效果也会影响其是否承担法律责任。如果混淆工具实践中被广泛用于干扰他人的合法个人信息处理行为,在没有信息主体明确指示的情况下自动生成大量虚假数据,开发者需要承担部分责任。就司法实践来说,此种责任一般会以民事责任的形式出现,如平台对开发者提起的侵权诉讼,要求开发者赔偿其因工具使用造成的损失。而诉讼的争议焦点包括:工具是否具备明显的干扰性功能?这些功能是否超出了合理的信息保护范围?平台的隐私政策是否充分透明、是否对信息主体的数据权利提供了足够的保障?平台在信息保护上是否存在重大不足,导致信息主体不得不采取混淆措施?
三是信息主体对技术工具使用的合理预期。如果工具的使用超出了普通信息主体的预期范围,或者说,信息主体未预料到其使用会导致平台重大损害,那么开发者应当在设计和推广时,就提供更为明确的使用指引和限制,履行一定的注意义务。信息主体应当被告知工具的潜在影响和法律风险,并有能力选择是否使用某些功能。如果工具的某些功能导致平台运营困难或个人信息处理受阻,开发者应明确告知信息主体,并提供选择禁用这些功能的选项。开发者如果未能履行这一义务,则被视为未能合理保护信息主体的合法权益,应承担相应责任。
(二)信息主体与信息收集者:自我保护与“搭便车”行为
“搭便车”(freeriding)是经济学和社会学中的概念,指的是个体在享受某种公共资源或服务时,未承担相应的成本或责任,而是依赖他人付出,自己从中受益。我国的司法实践中,法院经常在《反不正当竞争法》一般条款(第2条)以及反假冒条款(原第5条,现第6条)的适用中认定“搭便车”行为。[22]信息主体在使用混淆技术保护个人信息的过程中,其法律责任与信息收集者的利益之间存在复杂关系。个人信息权益作为基本人权,赋予信息主体在一定范围内对个人信息的控制和保护权利。[23]在《混淆》一书中,作者通过对混淆的个人信息保护功能、混淆对数据市场的影响、混淆对信息不对称的应对、混淆的公共价值以及道德合法性进行分析,明确反驳了混淆是一种“搭便车”行为的质疑。
混淆是信息主体对抗数据侵害的自我保护工具,是一种保护信息主体个人信息和维护市场公平的合法手段,具有合理性和必要性。混淆的核心目的并非逃避数据平台的成本,而是维护信息主体的隐私权和数据控制权。在当前数据经济和信息不对称的背景下,混淆不应被视为逃避责任的手段,而是信息主体在不平等数据关系中的正当权利主张。《混淆》一书的作者认为,这种自我保护行为是正当且必要的,旨在对抗信息收集者的不对称优势和信息主体的个人信息暴露状况。相比传统个人信息保护手段,混淆更直接有效,使信息主体可以主动调控个人数据的“可见度”,是一种保护个人信息的手段,用于应对信息不对称带来的个人信息风险,而非在享受平台服务的同时逃避应承担的义务。这种自我保护并不影响平台的核心服务功能,信息主体的动机也并非减少成本或逃避责任,而是保障自身的个人信息权。混淆的应用并未阻止数据交易的正常进行或严重妨碍数据市场的运转。数据平台的核心商业模式依赖于对用户数据的收集和分析,用于广告投放和用户画像的构建,而混淆的存在并不会从根本上颠覆这一商业模式。混淆仅干扰了数据的极度精准性,使平台无法完全掌控用户行为和偏好,这并不构成对数据收集者的“搭便车”行为,因为信息主体在享受服务的前提下合理行使了自我保护权。对于大多数数据平台而言,混淆带来的影响是数据的“模糊化”而非“无效化”。平台依旧可以通过数据清洗和算法优化来进行有效分析,只是数据的精准度有所下降。因此,混淆行为并非使信息主体在完全依赖平台服务的同时规避责任,而是通过合理方式限制平台对其私密信息的挖掘深度。平台仍然可以通过其他数据补充机制实现业务目标,混淆行为并未从根本上妨害平台的正常运作。
在此基础上,《混淆》一书的作者进一步提出,混淆本质上是一种对抗信息不对称的合理方式。信息不对称问题指的是数据收集者对用户数据的掌控远超信息主体的认知,使信息主体难以预见数据的具体应用方式。这种不对称使信息主体面临数据被过度使用的风险,个人信息权难以得到充分保障。混淆作为一种反制措施,使信息主体在数据关系中具备一定的主动权,减少了信息不对称带来的个人信息威胁。其使用不是为了逃避平台责任,而是为了在极度不对称的数据关系中实现权力平衡,确保信息主体的数据权利得到基本保障。这种平衡在数字社会尤为必要,因为信息收集者对数据的使用具有高度隐秘性和复杂性,混淆为信息主体提供了一种有效的应对方式。信息主体并未通过混淆减少其支付的成本或规避责任,而是为保障自身权利进行合理防范。混淆的公共价值在于维护数据市场的健康发展。数据收集者对用户数据的独占权会导致数据资源集中,使信息主体在数据市场中失去议价权,因此造成的数据垄断进一步损害市场的健康发展。混淆通过干扰数据收集者的精准分析,有效削弱了数据垄断效应,防止信息资源的过度集中。从公共利益角度看,混淆的应用有助于维持数据市场的竞争性,使数据资源得以合理分布,而非集中在少数大企业手中。信息主体使用混淆并非逃避责任,而是主动应对数据不对称和信息垄断问题,具有促进市场公平的积极意义。
最后,作者从道德和伦理角度进一步反驳了对混淆的“搭便车”质疑。在数据隐私面临频繁被侵犯风险的数字时代,信息主体在保护自身权益方面具有合理主张,尤其信息主体有权采取措施保护自己的私人领域。混淆通过掩盖、干扰数据分析,让信息主体能拥有更多的自主权。这种自主权源于信息主体的基本人权,与法律和道德要求一致,具备道德合法性。
(三)网络监管者与信息主体:混淆的滥用风险及其防范
混淆的应用在提升信息保护水平的同时,也带来了一定的滥用风险。混淆若被恶意使用可能导致信息失真、数据混乱等问题,甚至可能影响公众利益。因此,防范混淆的滥用是保证其合理应用的关键。随着生成式人工智能的普及,AI与混淆的结合可以显著增强个人信息保护的效果。通过机器学习和自然语言处理技术,AI可以识别和预测数据收集者的分析模式,生成针对性的混淆数据,使混淆更加高效和难以破解,进一步增强个人信息保护效果。除了混淆数据本身外,AI还可以实时监控数据收集环境,根据监控结果自动调整混淆模式,并将混淆应用到更多复杂和多样化的场景中。例如,在面对新的数据分析方法时,AI可以快速生成新的混淆模式,生成虚假的用户行为数据来保护用户在社交媒体上的个人信息,或者通过生成虚拟路径来防止用户的地理位置被追踪。人工智能在混淆中的应用无疑提升了混淆技术的复杂性和有效性。按照《混淆》一书的思路,AI可以通过三种方式帮助信息主体进行混淆:第一,生成虚假数据。AI能够自动生成与用户真实行为相似的虚假数据,在大量数据中掩盖用户的真实行为。这种方法依赖于机器学习算法,通过分析用户的正常行为模式,生成具有高相似性的虚假数据,使得数据处理者难以辨别其中的真实信息。第二,操控数据流。AI可以动态调整用户的数据流,使其表现出异常或随机的特征。AI可以自动改变用户的浏览习惯、点击行为、购买记录等,扰乱数据处理者对用户行为的分析和预测。第三,数据扰乱与噪声添加。AI可以在用户数据中添加噪声,使得数据处理者在分析时遭遇更多困难。噪声数据的添加可以是随机的,也可以是根据特定算法生成的,在保持数据集整体结构的同时,降低分析的准确性。与传统的手动混淆相比,AI能够生成更复杂、更难以识别的虚假数据,更有效地保护用户个人信息。
然而,在AI大模型快速发展的背景下,深度伪造问题日益严峻。深度伪造具备混淆的基本特征,其通过虚假内容的生成来掩盖、误导和干扰信息处理。与一般混淆不同的是,深度伪造往往会带来更大程度的误导性。深度伪造技术可以生成高度逼真的虚假图像、视频和音频,广泛应用于娱乐、教育和商业领域。例如,在电影行业,深度伪造技术被用来复活已故演员,使他们在新的影片中“出演”角色,不仅展现了电影特效的进步,同时也引起了关于数字复活伦理和法律问题的讨论。如电影《速度与激情7》中,制作团队使用了视觉特效技术来完成保罗·沃克(PaulWalker)的未拍摄部分。[24]但更值得关注的是,深度伪造技术已经被用于制造关于政治领导人的虚假宣传和散布不实信息。
混淆与深度伪造等AI技术的结合使用,在提升信息保护的同时,也会增加对真实信息的甄别难度。由于深度伪造的内容难以通过传统的算法筛查,相比一般的混淆,深度伪造会造成个人信息处理者的分析偏差,甚至导致其在某些特定领域(安全检测、身份验证等)作出错误判断。当AI生成的虚假数据变得极其逼真时,混淆的合法性和效果将受到广泛质疑。为了有效应对AI与混淆结合可能带来的法律风险,防止AI与混淆被滥用,迫切需要建立有效的问责机制与技术防护措施,完善AI服务提供者等主体的法律责任体系。例如,我国《互联网信息服务深度合成管理规定》提供了针对深度伪造技术的法律框架,要求深度合成服务提供者建立健全的辟谣机制和信息主体申诉渠道,及时应对虚假信息的传播,并向相关监管部门报告;[25]利用机器学习和模式识别技术,自动识别图像、视频和音频中的伪造痕迹,帮助甄别虚假信息。
(四)信息主体与混淆技术开发者:混淆自主性与技术可靠性
在《混淆》一书中,作者主要关注混淆技术作为信息主体的自我保护工具,如何抵御数据收集者的监控、保护个人隐私。然而,针对混淆技术开发者的责任、混淆技术的自主性和可靠性,书中并未进行详细探讨。考虑到混淆技术开发者的责任、混淆技术的自主性与可靠性是一个值得研究的延伸话题,可以为信息主体的自我保护方式提供更有力的支撑,对此,笔者也展开作一些分析。
传统的个人信息保护立法大多强调信息处理者在收集、存储、处理和使用个人信息时必须遵守的法律义务,从而保护信息主体的基本权益。信息处理者需要在收集数据前征得个人同意,保证数据的安全存储,并在信息泄露时通知受影响的个人和相关监管机构。[26]这种模式的根本缺陷在于信息主体的被动地位,尤其是在面对复杂、隐秘的数据收集技术时,信息主体单凭个人能力难以掌控自身数据,始终处于信息不对称之下,隐私权受侵害却难以有效应对。信息主体因此不得不选择依赖第三方工具进行自我保护,借助这些提供简单易用界面和自动化功能的工具实现一定程度的隐私保护。然而,依赖这些工具带来了新的问题。
混淆工具的实际效用、隐私安全性及商业动机均存在一定风险。许多信息主体缺乏开发和维护复杂混淆工具的能力,即便具备技术能力的用户,也因时间、资源限制而无法自行设计安全有效的混淆系统。自然地,信息主体选择依赖现成的第三方工具,但这些工具的开发方往往有着复杂的商业模式,不完全以隐私保护为唯一目的。某些浏览器插件和应用程序在声称保护隐私的同时,还会收集用户数据,甚至通过SDK出售给第三方。许多混淆工具依赖广告或数据分析盈利,导致这些工具在某种程度上需要对用户行为进行监控,以优化广告效果或获得数据收益,进一步加大了用户的隐私泄露风险。即便是声称“开源”的混淆工具,也可能暗含商业动机,对用户隐私构成隐性威胁。此外,混淆工具的技术垄断加剧了信息主体对某些大公司开发的工具的依赖性。随着信息保护市场发展,一些大型科技公司通过并购、技术创新等方式逐步主导了混淆工具的市场,信息主体在选择隐私保护工具时受到很大限制。这种垄断不仅限制了信息主体的选择权,使其对某些公司或产品产生依赖,还会导致工具价格上涨或服务质量下降,进一步削弱了信息主体的自主性和对隐私的实际控制力。
五、结语
“大数据时代的个人数据权利涉及自然人的民事权益保护与数据企业的数据活动自由关系的协调。”[28]信息主体的主动保护能力日益成为不可忽视的因素,不仅为现阶段个人信息保护法律规范体系带来了新的启示,随着权利分配方案的改变,也引发了一系列新的法律问题。混淆不仅打破了传统依赖法律约束信息处理者的模式,而且赋予信息主体在信息保护中的技术主动权,为信息时代个人信息保护提供了新的途径与方式。随着数据保护需求的不断增长,混淆在技术创新与法律规范的共同支持下,将进一步完善其对个人信息的保护方式,实现信息保护和公共利益的平衡发展,为数据法治化的全面推进奠定坚实基础。在信息保护的视角下,信息主体权益要求信息处理应有适当限度,避免过度收集和分析带来的个人信息权益侵害。为了不损害信息主体权益,避免过度妨碍合法的信息处理需求,应当以信息保护的法律正当性为核心、技术控制手段为支撑,综合评估混淆的应用边界,为混淆在信息保护与滥用防范之间找到平衡点。
在未来的立法方向上,可以通过明确混淆的合法地位、设立应用标准、加强信息处理者的法律责任和支持技术创新,来引导混淆的合理应用,明确信息主体在特定情境下使用混淆的权利,为混淆的合法地位提供支持。同时,应根据具体情境,通过合理的技术设计让混淆成为信息保护的有效工具,对混淆程度、混淆的实施方式和适用范围进行合理约束,避免对平台的系统稳定性造成负担。混淆开发者与信息收集者可提供信息保护指南或设立信息保护选项,避免恶意行为或无序使用,防范混淆的使用对公共利益造成的损害和可能产生的负面影响,使其真正成为个人信息保护的新范式,在数据法治化的进程中发挥更大作用。
【注释】
[1][美]芬恩·布伦顿、[美]海伦·尼森鲍姆:《混淆:个人隐私自我保护手册》,赵精武、林北征译,北京大学出版社2024年版。
[2]See Finn Brunton & Helen Nissenbaum, Obfuscation:A User,s Guide for Privacy and Protest, MIT Press, 2015, p. 61.
[3]See Joshua A. T. Fairfield, Owned:Property, Privacy, and the New Digital Serfdom, Cambridge University Press, 2017,p. 17.
[4]参见我国《个人信息保护法》第73条第4项。
[5]参见林北征:《个人信息匿名化概括式立法的困境与完善》,载《行政法学研究》2024年第6期。
[6]除固定表述外,本文不专门区分“信息”(information)与“数据”(data)。此外,由于是依据美国法,作者在原著中也并不区别个人信息与隐私,故下文将根据具体语境作必要的区分。
[7]See Finn Brunton & Helen Nissenbaum, Obfuscation:A User,s Guide for Privacy and Protest, MIT Press, 2015, p. 112.
[8]庞婷:《〈2024年全球数字经济白皮书〉发布中国AI企业占全球15%》,载央广网2024年7月3日,https//www。cnr。cn/bj/oiue/20240703/t20240703_526775495。shtml。
[9]See A. Michael Froomkin, The Death of Privacy?, Stanford Law Review, Vol. 2000(52) , p. 1462.
[10]ee Neil Richards & Woodrow Hartzog, Privacy,s Trust Gap:A Review, Yale Law Journal, Vol. 2017( 126) , at https://www. yalelawjournal. org/review/privacys-trust-gap-a-review (Last Visited on Oct. 20, 2024).
[11]参见邵山:《个人信息保护法告知同意规则的实务疑难问题研究》,载《人民司法》2024年第13期。
[12]参见赵精武、周瑞珏:《再论群体隐私的理论构造》,载《学术研究》2024年第7期。
[13]参见赵精武:《用户标签的法律性质与治理逻辑》,载《现代法学》2022年第6期。
[14]See Michele Loi and Markus Christen, Two Concepts of Group Privacy, Philosophy & Technology, Vol. 2020 (33) , pp.207-224.
[15]参见赵精武、周瑞珏:《再论群体隐私的理论构造》,载《学术研究》2024年第7期。
[16] Rainer Mühlhoff, Predictive Privacy:Towards an Applied Ethics of Data Analytics, Ethics and Information Technology, Vol.2021(23) , pp. 675-690.
[17][美]芬恩·布伦顿、[美]海伦·尼森鲍姆:《混淆:个人隐私自我保护手册》,赵精武、林北征译,北京大学出版社2024年版,第23页。
[18][美]芬恩·布伦顿、[美]海伦·尼森鲍姆:《混淆:个人隐私自我保护手册》,赵精武、林北征译,北京大学出版社2024年版,第20页。
[19][美]芬恩·布伦顿、[美]海伦·尼森鲍姆:《混淆:个人隐私自我保护手册》,赵精武、林北征译,北京大学出版社2024年版,第35-36页。
[20]Ryan Calo, Artificial Intelligence Policy:A Primer and Roadmap, University of California Davis Law Review, Vol. 2018(51) , pp. 399-449.
[21]参见张新宝:《从隐私到个人信息:利益再衡量的理论与制度安排》,载《中国法学》2015年第3期;赵精武、周瑞珏:《再论群体隐私的理论构造》,载《学术研究》2024年第7期。
[22]参见冯术杰:《“搭便车”的竞争法规制》,载《清华法学》2019年第1期。
[23]参见赵精武:《个人信息匿名化的理论基础与制度建构》,载《中外法学》2024年第2期;王利明:《论个人信息权在人格权法中的地位》,载《苏州大学学报(哲学社会科学版)》2012年第6期。
[24]由于保罗·沃克在拍摄过程中意外去世,电影中的许多镜头通过使用其两位兄弟作为替身演员,并结合计算机生成的图像(CGI),以复现保罗·沃克的表演。这项技术允许电影制作团队在尊重已故演员的同时,完成电影的制作。这一过程包括使用350个CGI镜头,使用了大量的技术创新,保证电影画面所呈现的人物形象与原演员尽可能相似。See Furious 7:Which Shots of Paul Walker Were CGI?, Overmental, at https://overmental. com/con- tent/furious-7-which-shots-of-paul-walker-were-cgi-41530( Last Visited on Oct. 21, 2024) .
[25]参见《互联网信息服务深度合成管理规定》第11条。
[26]参见赵精武:《科技伦理嵌入人工智能治理体系的路径展开——以自动驾驶应用场景为例》,载《法治社会》2024年第5期。
[27]参见程啸:《论大数据时代的个人数据权利》,载《中国社会科学》2018年第3期。