上个月月底的时候,QQ圈子忽然成为了一个火热的关注点。一个很有可能的说法是,腾讯分析了海量用户的备注名称、分组概况和所属群信息,对每个用户进行了实名的估计,然后推送给与其可能相关的用户。接下来的几天,这个功能以及背后的用户隐私成为了大家,特别是IT/互联网工作者激烈讨论的话题。
我觉得这个问题十分有趣,而且社会对其界定和认识还十分模糊。好比说,在移动设备高速发展,网络渗透到生活每个角落的今天,怎样的数据算是用户隐私,怎样的行为算是公认的侵犯用户隐私而容易引起公愤和唾弃的都还没有达成一致的共识。当我发现很难直接地想清楚这些问题时,我就在一个原本分享Idea的讨论组里发起了一个相对随意的讨论。没有Problem Definition/formulation,也不涉及任何法律制定和裁判问题,只是基于大家对社会伦理的简单常识来讨论“隐私”这个比较宽泛、繁琐的问题。
好的议题往往由一个例子来抛砖引玉:“有个问题是这样,好比说,我和我朋友在一个QQ讨论组里的聊天记录,应该是受保护吧,聊天内容不应该是public available吧(我认为这个应该是共识吧,如果说连聊天记录也不算隐私的话,那隐私的范围就需要重新探讨了)。但是问题就来了,既然不是 public available,但获取权限肯定不只我和我的朋友们,腾讯负责QQ开发或是运营的项目组肯定也有权限(纯属个人猜测,如果不对请原谅我的无知),甚至他们的其他部门,甚至客服小姐,那么这个权限的边界应该在哪里。这是第一个问题。其二,如果腾讯某个小组或是团队拥有获取这些聊天记录的权限,然后把海量聊天记录拿出来做 data mining,接而获得一些有趣的结果,最后把这个结果make public available,这样做是否算是扩大了获取聊天记录内容的权限范围?举两个这样的实例,第一个就是QQ圈子,它获取了很多备注和分类信息,这些信息本来不应该是 public available的,但是QQ对他们做了分析,把得到的结果做了定向推送,算是一种把用户隐私数据的衍生产品推向了public,结果,招来了一阵反对。第二个例子是前一阵子(情人节后)淘宝做的‘各个地方的人在情人节喜欢买什么’的数据分析。同样的,用户的购买记录和个人信息也应该被保密,但是汇总以后的分析结果在面向公众公布以后就得到了广泛关注,甚至是好评。我觉得其中很重要的一个原因是,很多用户并没有觉得自己的隐私信息被泄露了。这是两个将私人信息的衍生物(分析结果)推向public的例子,但是反应却不一样,关键在于得到的结果和受保护信息之间的关系,这样的关系是否可以定量的被界定呢?划定多少程度的衍生信息可以被公开,多少程度之内的不允许,这就是个问题。”
这个例子同时也提出了一个很复杂的问题,先没有讨论哪些内容属于用户隐私哪些不属于,而是对于假想中大众公认的用户隐私,怎样深度的挖掘结果,怎样的公布方式,可以不再属于隐私范围。
在讨论这个问题之前,必须对例子里的先决条件做出有效性论证。因为我在说第一个例子的同时也带出了第二个例子,隐性的默认了第二个例子里的数据也是公认的隐私数据,即淘宝抓取用户的购买信息。Daniex童鞋敏锐的指出了论证的必要性,然后我们就淘宝这个平台本身进行了一番探讨。
“淘宝人民警察论”: 很多用户买了会寄个自己对吧,那么淘宝其实知道绝大多数买家的详细地址,这比知道用户的名字跟某些聊天记录在某种程度上来说更加接近公安系统。
谈到公安系统,就不得不说到酒店开房记录的问题。因为之前在豆瓣看到过一个帖子,说跟一个人相亲,然后对方动用关系找在公安的朋友查了他的开房记录(全国范围内),然后问他为啥去开了房,和那些人是什么关系等等。让这位豆友感到十分恐慌。这个隐私受侵犯的问题我貌似不只一次在网上看到讨论,但政府和公安系统有没有兴趣来解决却不得而知。假设酒店登记时提供部分个人信息属于必要(貌似全球都这样做),那这些隐私信息该如何被对待呢?还有,公安系统能查到你的所有家庭信息,犯罪记录,这些记录应该被共享么?
出于安全和侦破考量,我觉得是有必要的。但要注意的问题也很简单,就是权限和传播限制。很简单的例子,一个公民的开房记录,任意一个民警就能查得到么?起码目前看来,中国的某些地区的实际情况是这样的。但按情理来说应该这样么(不牵扯法律范畴的问题)?当然不。但是这应该记录么?当然是的,追捕逃犯的时候这个信息不能说毫无用处。其二,如果我是刑警大队某个案件负责人,我为了办案需要追踪某个人的开房记录,那我获得了权限去查,查完以后我就要对这个信息负责,不能任意传播。就像理论上任何人购买下载了一首有版权的mp3,不能随意传给没有购买的人一样。另外,H童鞋指出很多公安系统才应该有的数据库资料在坊间完全可以以不到1人民币的价格购买到其中一部分表格信息。
“淘宝写字楼开发商论”: 比如一个开发商造了栋写字楼,租给许许多多形形色色的小公司。其中一个公司是卖药的,那那个公司所保留的药品销售记录也需要对这个开发商公开么。淘宝作为一个C2C平台(即Customer卖给Customer),角色就类似于写字楼、办公场地所有者。
在举到这个例子时,H童鞋认为淘宝有权利拿的某些信息,他陈述说:“就像房东一样,你租房子的人,客人什么的哪里来的,背景总要调查清楚的吧。” 我:“我觉得租房子的情况,更像是淘宝对待卖家的情形吧。因为有卖家来这里开店,你要做好调查,他卖的东西正不正规,是否不违法之类的。而不是调查买家。” Daniex童鞋补充:“好比你是房客,那你买了魔力电动棒,你房东也有权知道?” (太犀利了)
但如果淘宝把这项权利写在开店协议里呢,当你注册一家新店,甚至注册一个新用户的时候,淘宝就在Agreement里写明了他有权获取并分析你的购买记录,当然他也会提供什么所谓的隐私保护条款之类的,但制约性有效性有多大,就不得而知了。那这种协议是否属于“霸王条款”呢。百度百科里说,霸王条款的存在条件有二:一、生产者和经营者处于垄断地位,消费者别无选择;二、信息不对称,消费者不知道可以选择什么。根据09年的数据:国内类似淘宝的C2C平台网站主要包括淘宝、易趣和拍拍,三大平台所占据的市场份额接近90%。易趣已然承认在中国的失败,拍拍更是难以与淘宝竞争。也就是说用户其实并没有第二个C2C平台可供选择,开放自己的购买记录实属无奈。
在进行了一份实例讨论后,我再次抛砖,认为可以把虚拟数据的隐私归约成三个方面:1,权限问题,即谁获取这些数据 2. 责任人问题,获取这些数据的受众被禁止向非授权人输出数据 3,数据分析问题,获取数据的受众对于数据进行分析的目的需要受限制。
H童鞋提出后两者可以合并为“数据本身以及数据分析结果的受众范围问题”。关于这两个方面我们又进行了摆事实讲道理相结合的论证。比如Gmail服务现在会对用户的邮件内容进行自动分析,比如X童鞋在邮件里跟我们说他想购买某某神油,那么几分钟后这款神油的广告就会出现在他的Gmail页面里,甚至他之前在Google Search里查询的关键字相关的广告,也会投放到其他Google服务的页面里。但是不知道腾讯现在是否也会做这样的广告定向投放,因为在聊天对话窗口的周边是存在广告链接的,QQ完全可以分析每一个用户,每一段对话的聊天记录然后做customized advertising. 再回到刚才淘宝购买记录的问题,S童鞋认为根据我的购买记录来推荐商品还是挺便利的,所以她觉得向淘宝或者其他B2C的平台公开购买数据是可以接受的。但我们一致认为淘宝可以提供更加保护用户隐私的选择,比如在用户每次购买的时候让用户勾选是否同意让淘宝分析此次购买记录。就类似于我们平时使用Visual Studio或者MS Word的时候微软也会询问你是否愿意分享用户体验,如果你勾选不愿意,理论上他就不能分析你的用户数据。但是,这样一来淘宝必然会损失许多的用户数据,接而影响到后端的数据分析和更好的个性化用户推荐等服务。
既要保护用户的隐私数据,又要使用这些数据带来更多的分析,提供更好的服务(这些数据的原始目的之一),仍是一个棘手的难题。在当下中国的法治氛围和条件下,也只能依靠互联网大佬们的自律了。
“说白了,隐私不就是想隐藏点龌龊的事么,把好形象摆在外面 ”,“最好的提倡是大家诚实做人么”。以H童鞋和Daniex童鞋的观点作为结束语再好不过了。虽然隐私的细节因人而异,好比我觉得我今天几点起床当然也是隐私,怎么能随便被人拿去广而告之。
当我们在亲切友好的氛围下结束对隐私问题的会谈后,我们就一个浙大mm寝室卧谈讨论杨幂整形的事情进行了讨论,强烈谴责了某些程序员把“整形”打成“整型”的做法。最后,我们总结了这次会议,认为它展现了社会主义网民的新风貌,高素质,为我国网络社会主义精神文明建设树立了良好的榜样。
最后传一张Daniex童鞋的QQ分组,曝光一下他的隐私:









