这篇文章第一版写在17年6月,记录了我对隐私研究的困惑。改改停停,每隔一阵都有新的想法,写了大半年。
我从小在寄宿学校过集体生活长大,并不关心隐私。很长时间,我觉得隐私不是一个重要的问题,毕竟这个世界还有很多人挣扎于温饱。angry bird这个app是否从我的手机里获取了gps信息,对我并没有那么大吸引力。但是jason最感兴趣的是隐私研究。为了向导师表忠心,我读了非常多隐私有关的书籍和论文,试图说服自己隐私研究的意义。
今天的中国,大家也开始关心信息隐私。知乎里,个人隐私是否会随着互联网的发展而逐渐消失以至不存在? 这个问题有1万多个关注,一百万的浏览量。最高赞,Manolo 的回答,很合我心意。
信息隐私和传统意义的隐私并不一样。传统隐私更多是一个社交概念,隐私和偷窥是人性的博弈。弗洛伊德说,每个人潜意识中都有偷窥他人的欲望。我个人最喜欢 Daniel Solove 从人性和社会学对隐私的解释。
Society is fraught with conflict and friction. Privacy is the relief from a range of kinds of social friction.
人类简史里描述八卦这件事如何让人类发生认知革命,成为社会性动物。但是这种虚构故事的能力和社会关系交叉,会带来很多摩擦。隐私可以缓解这种摩擦。所以隐私不仅仅避免尴尬,它让社会更加稳定。
但信息隐私并不一样,它有社会学的成分在,但我相信更多是经济学的。
今天信息隐私的经济学问题还没有爆发,所以媒体为了吸引注意力,更多时候还是在讨论社会学成分。
12年福布斯有一个影响很大的报道: Target可以比少女的爸爸更早知道未成年少女怀孕。因为孕妇在孕期会买很多特定的商品,如钙片,锌片,没有气味的乳液等等。Target通过统计购买记录,手动发现了25种产品和购买者是否怀孕有联系。甚至可以通过购买的商品,判断孕妇怀孕多久,因为怀孕不同时期购买的商品也是不一样的。
这个例子是数据库应用的扩展,也是这一波大数据热潮的开始。在那之前,最有名的案例是沃尔玛发现买尿布的人经常一起买啤酒。美国的青年男性一般喜欢周五晚上去酒吧喝啤酒。但是刚有小孩以后,因为小孩的压力,这些人就不能去酒吧了。所以,他们逛超市买尿布时,就会买一些啤酒回家喝。后来超市把尿布放在啤酒专柜旁边,啤酒的销量也因此提高。
Target这个新闻当时引起很大争议,因为未成年少女怀孕是一个敏感话题。类似的新闻有很多。今年上半年,Facebook被发现允许广告商通过个人的情感状态来推送广告。Facebook有一个研究,发现通过分析青少年更新的文字可以判断他们心情是否低落,是否自我怀疑。他们将这一部分内容写进了他们市场部门给广告商的宣传册。
大部分隐私有关的媒体报道都是一些敏感话题开始的,或者名人的敏感资料泄漏。这些报道让我对隐私很困惑。
- 我是一个默默无闻的人,我的隐私重要么?密码学里描述相对安全,是指 如果破解一则消息所需要的成本(计算机、人力、电能等等)远远超过这则消息本身本身的价值,那么我们就可以认为这个加密是安全的。类似的,偷取我这么一个默默无闻的人的隐私,比如盗取我的邮箱账号,应该会亏本吧。
我并不希望信息隐私总是和这些敏感话题纠缠在一起。并不是因为这些特例,信息隐私才重要。假如预测的不是怀孕,而是便秘,这不影响信息隐私的重要性。
回到Target这个故事上,这个故事的上下文要比那个题目更加有意思。Target是美国排名第二的零售商(第一是沃尔玛),但很多顾客去Target都只买某一类产品,比如文具或者小电器。Target期望成为一个一站式的购物商场,希望大家无论是买文具,买菜,买电子产品,买服装,都去他们那买。
很多社会学和经济学研究都发现,当一个家庭有第一个小孩的时候,因为第一次当爸爸妈妈,全家会非常手忙脚乱,所以这个家庭的消费习惯会经历一次巨大的变化。Target之所以去判断怀孕,就是希望能够利用好这个机会来修正大家对Target的印象。当Target发现这个家庭有孕妇,他们就会给这个家庭寄特别设计的产品目录,告诉他们,我们不仅仅卖文具,我们还卖尿布,卖食物,卖婴儿服饰,等等。
如果我们把这些步骤分开来看:
- Target 通过用户的会员卡来收集用户的购买行为。
- Target 分析收集的数据来建立一些机器学习模型,并给用户打各种标签,如怀孕。
- Target 内部部门合作,将分析以后的结果分享给市场部门。
- Target 市场部门向打了“怀孕” 标签的用户,发特别的产品目录。
- 寄送产品目录的过程有可能被其他人看到了,例如目录不小心记错到了邻居那里。如果这个产品目录设计得太过明显,邻居可能因此猜到怀孕的事实。
- 因为这段时间用户消费行为非常容易受影响,可能有一部分人一生的消费行为被改变了。
在今天的环境下,1-4已经无法避免,第5步是尴尬的成分,但真正让我不安的是第6点。这一套连续技利用了我情感上最脆弱的时候控制我的行为。就像derren在the push里面用各种心理学技巧去控制一个自以为独立的人去杀人。
过去一年,我一直试图销售这套理论给我身边的人,但并没有成功。大部分认为这件事并没有任何问题。
- 有说 Target在为我做个性化推荐,这是为了帮助我。
- 也有说,今天的整个广告系统和市场营销,甚至品牌建设,就是带着操纵人的目的的。但大家都愿意接受。
这让我很沮丧,我隐约觉得这应该是一个很重要的问题。而且那怕这个问题在这个时间点还是一个萌芽,但是在可见的时间范围内,会变得越来越重要。随着技术的进步,垄断地位的公司可以通过算法大规模地控制普通人生活。
AI的本质是大规模的自动决策,很多过去不能实现的精准打击在未来都会成为现实。今天的品牌营销不能针对个人,都是针对一个大的群体。广告营销不能指哪打哪,但AI是可以的。今年有一个关于uber动态定价策略的报道。Uber发现用户手机电量比较低的时候,大家更愿意接受高动态定价。这个价格歧视和下雨天打的费上涨并不一样。用一个更夸张的例子,假如我有足够的技术精准到一个人,然后我知道他过年一定要回家,我能不能垄断他所有的机票火车票价钱,把价钱设到他愿意承担的上限?
What Stays in Vegas 讲述了一个更加真实的故事。凯撒娱乐是拉斯维加斯一家赌场公司,CEO是一个哈佛大学的教授,他们的主要客户定位在小额玩家身上。这家公司建立了一套非常完善的信息系统,知道每个客户的收入,职业,教育背景,以及过去的赌博行为。利用这些信息,他们知道每个人对于输钱的痛点。
痛点指一个人如果输了那么多钱,心里的负罪感会让他们离开赌场很久都不愿意回来。假如一个人的痛点是3000美金,当他输了这么多钱,这个赌场在几个月内都会丢失掉这个客户。但是如果他只输了2900就收手了,他依然很难过,但是下个星期他又会到赌场里来。这样对赌场而言是更有利的。所以赌场当发现一个客户接近于痛点的时候,就会想办法让顾客暂时离开赌桌,比如提供一个免费食物,或者免费show的门票。
因为种种原因,互联网是免费的。但今天,我们已经可以看到,这个免费的结构有很多不完美的地方。我常常在想,如果我们有机会回到40年前,再设计一次互联网的经济模型,我们能不能有更好的选择。
信息是很难被定价,但并不应该免费。我非常喜欢01年诺贝尔经济学奖的“The Lemons Market Theory”。那篇论文解释了一个人买了一辆新车,第二天转手卖掉就要承受一个价钱损失的原因。因为对于买车的人而言,他不知道在第一天的晚上发生了什么,这里有一个信息不对称。价钱损失中的一部分就是用来支付这个信息不对称。
今天,所有的手机app都在拼命地收集数据。在国内有很多人在快递周围捡单子,大批量收购电话号码进行集中交易。而这些数据是以完全免费的形式从个人手里流出去。所有的数据都在疯狂地流向各个公司,而几乎没有信息从公司流向个人。以今天的条件,也几乎不可能让一个企业站出来和用户平等交易,或者买个人数据。
而我的研究就是希望通过开发机器学习的解释模型,让用户知道这些公司究竟收集了什么数据,并且会用这些数据做什么,最终使信息从公司流向个人,让信息流更加对称。
希望ubicomp爸爸给我一个minor revision。:-)
最后结尾引用偶像illah nourbakhsh在robotic ethics里的slide: