从大数据来源想到数据拥有权

2014/7/24   点击数:1138

[作者] 武夷山

[单位] 中国科技信息研究所

[摘要] Academy of ManagementJournal杂志2014年第2期发表了英国伦敦帝国学院的Gerard George、美国宾夕法尼亚大学的Martine R. Haas和麻省理工学院的Alex Pentland合写的社评,Big Data and Management(大数据与管理),我对文中关于大数据的5个重要来源的分析较感兴趣。

[关键词]  大数据 来源 数据拥有权



Academy of ManagementJournal杂志2014年第2期发表了英国伦敦帝国学院的Gerard George、美国宾夕法尼亚大学的Martine R. Haas和麻省理工学院的Alex Pentland合写的社评,Big Data and Management(大数据与管理),我对文中关于大数据的5个重要来源的分析较感兴趣。

第一个来源,公共数据。如政府拥有的关于交通、能源、保健等领域的数据。

第二个来源:私有数据。指私营公司、非营利机构和个人保有的数据,如消费者交易方面的数据、供应链所使用的视频识别标记数据、关于商品与资源之移动的数据、网站浏览数据、手机上的相关数据,等等。

第三个来源,data exhaust,数据痕迹(博主:好比喷气式飞机飞过,在天上就留下一长串“白烟”痕迹)。指对于数据的原始收集者而言没有价值或价值很低的数据,或被动收集下来的非核心数据。这些数据是为着其他用途而收集的,但是若与其他数据结合起来,就可能创造新价值。例如,个人在使用某些新技术(如手机)的时候,会产生环境(ambient)数据,我们在进行信息搜索的时候也产生着数据痕迹。

第四个来源,社区数据。根据结构化数据提炼出动态网络,就可以把握社会发展趋势。比如,消费者的商品评论、网民的各种网上投票信息、微博的内容,等等,都属于社区数据。

第五个来源,自量化数据。指个人对自己的行动和行为进行定量测度所产生的数据,例如,将腕套所记录下的体育锻炼运动量数据上传到手机App上,这些数据就可能被跟踪或汇总。心理学认为,人们自我陈述的偏好与其行为揭示出的偏好往往有差异。比如,某人说:我要节能(陈述的偏好),于是就买了节能灯。但是,由于节能灯省电,他开灯的时间比过去更长(揭示出的偏好),其实并没有少用电。若能将这类自量化数据都记录下来加以分析,有助于弄清人的心理和行为的关系。

博主:公共数据是属于政府或其他公共机构的,私有数据是属于非公共机构的,这很清楚。而其他三类数据,按说都属于产生了这些数据的个人,但我们往往轻而易举地、随意地放弃了或贡献了这些数据,使之成为别人挣钱的原材料,或泄露了个人隐私,我们还觉得很正常。我在某网站上注册过一个公共邮箱,最近,该网站不断提醒我:你的邮箱与个人手机号还没有绑定,如果绑定之后就会多么多么方便。我才不会理睬它呢,不方便就不方便吧,绝不给它手机号。

退一步说,商业性组织若想获得或已经获得了个人相关数据并将其作为增值的资源,就应该对数据“拥有者”给予经济补偿。比如说,在农村青壮年悉数外出打工的情况下,作物秸秆无法处理,只好一烧了事。此时,秸秆对于农户是没有价值的。但是,若当地建设了秸秆发电厂,厂家就得向农民收购秸秆作为原料,而不能无偿取用。对于个人“拥有”的数据或产生的(即使是无意识地产生出来的)数据,也应该适用同样的逻辑。

原文连接:http://blog.sciencenet.cn/home.php?mod=space&uid=1557&do=blog&id=814188