大数据:变革世界的关键资源—文本资料
专题二讲稿:
大数据:变革世界的关键资源
教学目的:从来没有哪一次技术变革能像大数据革命一样,在短短的数年时间,上升为大国的竞争战略,形成一股无法忽视、无法回避的历史潮流。随着我国经济发展进入新常态,无论是保持经济中高速增长、促进产业迈向中高端水平,还是营造大众创业、万众创新的发展环境,大数据都将充当越来越重要的角色。在教学中,要通过讲解大数据的内涵、成因与应用,大数据在国内外的发展状况,进一步提高学生对大数据这一基础性战略资源的认识。
课程内容:
1.什么是大数据
2.大数据是如何产生的
3.大数据可以做什么
4.中国:从“数据大国”走向“数据强国”
人类文明进步?每个阶段都有一张最具代表性的历史标签:19世纪是煤炭和蒸汽机,20世纪是内燃机、石油和电力。进入21世纪,由信息技术和互联网所引发的新一轮科技革命和产业变革更加深刻地诠释着人类进步的征程。其中,最具时代标志性的标签非大数据莫属,它好比是21世纪的石油和金矿,是一个国家提升综合竞争力的又一关键资源。
一、什么是大数据
通俗地说,大数据就是在信息化进程中自然形成的宝贵资源,大数据更接近把握信息资侃的本质。大数据技术与自然资源的发现、开采、提炼之间存在一定的相似之处。研究大数据,首先要研究各种有用的信息在何处,类似找矿;其次是把满足特定需求的信息收集过来,类似开矿;第三是把收集的信息按应用需求进行结构化处理,类似提炼,如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原料用的聚乙烯、聚丙烯等;第四是将这样的信息与具体的应用相结合,使之发挥作用,这就是基于大数据的应用系统,如同汽油通过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件。
为了更深刻地理解大数据的概念,我们可以先来看一则网上曾经流传过
的小故事:
某比萨店的电话铃响了,客服人员拿起电话。
客服:您好,请问有什么需要我为您服务?
顾客:你好,我想要一份……
客服:先生,烦请先把您的会员卡号告诉我。
顾客:342623。我想要一个海鲜比萨。
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,您的血压和胆固醇都偏高。
顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
顾客:你怎么知道我会喜欢吃这种的?
客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。
顾客:好。那我要一个家庭特大号比萨,要付多少钱?
客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。
顾客:算了,你们直接把比萨送我家吧,你们多久会送到?
客服:大约30分钟。如果你不想等,可以自己骑车来。
顾客:为什么?
客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录,您登记有一辆车号为SV-568的摩托车,而您目前正在铁山路右侧骑着这辆摩托车。你登记有一辆车。
顾客当即佩服得五体投地……
由此可见,大数据说自了就是挖掘整合一切有用的信息,为人类社会提供更好的服务。事实上,20世纪80年代,美国就有人提出“大数据”的概念,并预见随着信息技术的进步,数据的重要性将不断上升。21世纪前10年,尤其是2004年以脸谱(Facebook)、推特(Twitter)为代表的社交媒体产生之后,数据开始呈现爆炸式地增长,大数据的提法开始进入大众的视野并获得了越来越多的关注。
总体来说,大数据主要有以下五个特点:
类型多。大数据分为结构化数据和非结构化数据。结构化数据包括“1、2、3、4”等传统数字以及符号,非结构化数据包括网络日志、音频、视频、图片、地理位置信息等。(在大家发的微博中,你的图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。)目前,世界的数据大约75%都是非结构化数据,处理这部分数据,远比结构严整的数据困难。
容量大。现在,谷歌每天处理的数据量达到24PB,这个规模是美国国家图书馆的上千倍;百度每天处理的数据相当于5000个图书馆的数据量总和;一台大型望远镜五天收集到的数据,就超过了人类天文史上收集到的全部数据。根据水IDC(国际数据公司)的监测统计,2011年全球数据问题已经达到1.8Zb,而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍速,相当于我们地球上所有海滩沙粒总数的57倍速。
存取速度快。存取速度快有两层意思。一是数据产生得快。高能物理研究中一台大型粒子对撞机里面一共有1.5亿个传感器,每秒钟读数达4千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25PB的数据,相当于25000个lTB的硬盘。二是数据处理速度快。以存储一个lPB的数据为例,即使带宽(网速)能达到lG/s电脑的容量足够且能连续运行24小时,要将1PB的数据存入电脑也需要12天。而大数据通过云计算,可以从将12天才年存储完毕的数据,在20分钟之内完成。
应用价值大。大数据之“大”其实并不在于其表面的“大容量”,而在于其潜在的“大价值”。如果不能把拥有的数据转化为价值,那么拥有再多的数据也是毫无意义的。根据麦肯锡研究院的测算,美国的个人位置大数据服务,能够产生8000亿美元的市场规模;零售业大数据能够帮助企业增加如60%的利润;在制造业部门,大数据的广泛渗透应用能够降低50%的产品开发、制造、装配成本。
具备大智能。正是因为大数据拥有的“大价值”,才使得大数据有机会成为社会的财富和创新的基础,使大数据能够像土壤一样,在不久的将来孕育出一个更加智能的社会。在大数据时代,无论是信息、知识,还是机器智能,都是以数据为载体存在的。当电脑、网络、机器能够利用某种知识进行自动判别并采取行动为人类服务的时候,机器智能就产生了。智能时代是一个什么样的图景呢?未来,传感器、可穿戴式设备等微小的计算设备将进一步普及,装备到全世界的各种物体之上,包括机器、电器、人体、动物、植物等需要监测的目标,真正形成“万物皆互联、无处不计算”的状态。谷歌的无人驾驶汽车就是一个完全的大数据项目,其成功的关键,就在于数据的收集。无人驾驶汽车装备了激光雷达、摄像头、红外相机、GPS和一系列传感器等感应设备。正是通过这些感应设备,无人驾驶汽车不断地收集路面的情况、汽车的地理位置、前后车辆精确的相对距离、车流移动速度、道路两旁出现的交通标识和前方的交通信号等数据。这些实时收集的数据就像人类的眼睛一样,确保无人驾驶汽车能够安全行驶。就此而言,大数据就是大智能。正是依托数据这片土壤,智能型的文明才得以滋生繁衍。
二、大数据是如何产生的
概括地说,大数据的背后推手主要有3个。一是随着存储器硬件能力的提升,人类保存数据的能力在增强。1965年,英特尔的创始人之一戈登·摩尔提出了著名的摩尔定律。该定律指出,同一面积芯片上可容纳的晶体管数量,约每隔18-24个月便会增加一倍。半个多世纪以来,硬件技术的发展基本符合摩尔定律。以物理存储器为例,其性能不断上升,与此同时,价格不断下降。1955年,IBM推出第一款商用硬盘存储器,一兆字节的存储量需6000多美元。到2010年,一兆字节的存储量仅需要0.005美分。半个多纪,存储器的价格下降了1亿倍。摩尔定律发展到今天,一根头发尖大小的地方,就能放上万个晶体管。预计到2020年,IT硬盘的价格将下降到3美元,相当于一杯咖啡的价格。也就是说到了2020年只需花上一杯咖啡的钱就可以把一个图书馆全部的信息考进一个小小的硬盘。正因为存储器的价格在半个世纪内经历了空前绝后的下降,人类才能以非常低廉的成本保存海量的数据,这为大数据时代的到来铺平的硬件道路,打下了坚实的物质基础。
二是随着互联网技术与互联网经济的发展,人类生产数据的能力在增强。从内容来源上看,大数据主要来自以下两个方面。其一,机器产生的数据。物联网技术诞生之后,越来越多的机器设备开始配备传感器,传感器可以感知和运输这些不断生产的数据。移动互联网出现后,移动设备的传感器收集了了大量的用户数据、也成为大数据的一个重要来源。其二,人创造的数据。由于社交媒体的横空出世以及互联网经济的发展,人类自己开始在互联网生产数据,例如发微博、写微信,记录各自的活动和行为。在网上购物,留下支付行为、空间位置、兴趣爱好、信用历史等行为数据。大数据时代,全世界的网民都是数据的生产者,每个网民部犹如一个信息系统、一个传感器不断地制造数据、引发了人类历史上迄今为止规模最为庞大的数据爆炸。
三是随着云计算的诞生与发展,人类处理数据的能力大大增强。数据的处理离不开计算,数据与计算的关系就如同一个硬币的两面。没有云计算的诞生,人类就不可能具备处理大数据的能力。云计算是通过网络按需提供可动态伸缩的廉价计算服务。我们可以这样理解云计算:将提供资源的网络被称为“云”。“云”中的资源在使用者看来可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。云计算一般由数量惊人的计算机群构成,谷歌云计算拥有的服务器超过100万台。云计算的特性经常被称为像水电一样使用IT基础设施。这就好比是从古老的单台发动机模式转向的电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。
在云计算时代,普通人只要打开笔记本或者智能手机,就可以享受以往只有少数科学家才能拥有的超大规模的计算,云计算甚至可以让你体验每秒10万亿次的运算能力,如此强大的计算能力可以模拟核爆炸,预测气候变化和市场发展趋势,随着云计算分析能力的越来越强,人们才开始思考从海量数据中提取挖掘其隐含的大价值。大数据这一全新的概念在此过程中才渐渐成型。
三、大数据可以做什么
大数据是一场涉及面非常广泛的变革力量。假以时日,“用数据说话、用数据决策、用数据管理、用数据创新”成为常态,大数据将会无处不在,给国家治理方式带来根本性变革。
1.大数据让政府治理更精确透明
政府是一个国家最重要的决策主体,政府的决策体系是否科学,直接决定了政府的治理能力和治理效果。以往,因为在数据上存在“盲点”,政府有时会无法进行有效决策,容易形成从“主观主义”“经验主义”出发的模糊治理方式。大数据恰恰是克服政府治理顽疾的利器。政府可以借助大数据实现智慧治理、精准预测、风险预警、舆情监测等,迈向“数据驱动”的精准治理方式。例如,百度公司通过百度地图发现,相关地点的搜索请求数据和实际到达该地点的人群数量具有极高的相关性,相关系数超过0.9,表明用户去目的地前,一般都会提前利用百度地图搜索地点和规划路线。分析大量历史数据发现,相关地点的地图搜索会先于实际人流量达到峰值,百度大数据可以提前1-2小时对即将到来的风险进行预警。此类预警可以为治安提供有效决策支持避免如上海外滩踩踏事件一类悲剧再度发生。
再如,“谷歌流感趋势”是谷歌公司多年前推出的一款预测流感的产品。该公司的工程师认为,搜索流感信息的人数与实际患病人数之间存在密切关联。通过汇总用户的相关搜索记录,“谷歌流感趋势”可以预测出世界上不同国家和地区的流感传播情况。2009年,甲型HlNl流感暴发的几周前,“谷歌流感趋势”成功预测了流感在美国境内的传播其分析结果甚至具体到特定的地区和州,并且非常及时,令公共卫生官员备感震惊,而传统上,美国疾病控制中心要在流感爆发一两周之后才可以做到这些。
除此以外,大数据时代,无论公众还是政府的行为都被放在“第三只眼”再观察下,这就使得政府治理更加透明化,有助于打造阳光政府。中国工程院李国杰院士指出,“数据背后是网络网络背后是人,研究网络数据实际上是研究人组成的社会网络”。大数据为网络反腐提供了一个非常庞大,而且可以便利索取的“数据库”和“信息来源”,这使得网络犹如一个巨大的“信息蓄水池”。尽管这些信息是碎片化,而且是无序排列的,但是可以通过设置“关键词”的形式,将大数据变成小数据,从而使信息有序排列,获取有价值的信息,比如各地区的腐败轻重程度廉洁指数是零抱怨度,市民对政府的满意度等,为反腐败和廉政工作提供数据支撑。
2. 大数据让经济治理更有放
经济治理领域也是大数据创新应用的沃土,大数据是提高经济治理质量的有效手段。今后,判断经济形势可以通过把海量微观主体的行为进行加总分析,从而推导出宏观大趋势的好坏,而不再像以前那样仅仅依赖统计样本得来的数据;银行通过贷款对象的大数据特征可以推测对方违约的可能性,从而减少可能的损失;打击假冒伪劣、建设“信用中国”也不再需要消耗大量人力、物力,大数据将使危害市场秩序的行为无处遁形;大数据与物联网技术相结合,可以推动企业做出最优决策,帮助企业提高生产效率。例如,支付宝在2015年新推出了“芝麻信用” 。打开手机支付宝APP ,点击首页淡绿色空心的水滴“芝麻信用分”,授权开通后,每个支付宝用户都可以看到自己的芝麻信用分。从350分到950分,分数越高代表信用程度越好,违约可能性越低。芝麻信用分正是依据芝麻信用能够用到的数据打出来的,这些数据包括芝麻信用所在的蚂蚁金服集团多年积累的数据和与外部合作机构的数据。内部数据包括淘宝、天猫等电商平台网络购物的相关行为数据,支付宝平台水电煤电信缴费数据、各种生活服务场景相关数据,还有千万级以上的贷款数据。外部数据包括目前政府已经开放的工商、学历、学籍、公安四个方面的数据,芝麻信用已经全部接入。信仰是整个社会的基础设施。芝麻信用可以被用到生活的方方面面。当你的芝麻分达到了一定数值,租车、住酒店时就可以不用再交押金,出国签证可以无需准备财产证明、收入证明等。当然如果信用不好,借钱不还,恶意购物,这些行为被记录下来以后可能会引发找不到工作、租不到房子、申请不到贷款等连锁反应。
3.大数据让公共服务更智慧
在公共服务领域,基于大数据的智能服务系统,将会极大地提升人们的生活体验,智慧旅游、智慧医疗、智慧出行、智慧教育、智慧社区、智慧家居等等,人们享受的一切公共服务将在数据空间中以新的模式重新构建。例如,高德公司基于位置服务大数据的能力,与乌镇、古北水镇两家旅游公司合作,上线了全国首个“智慧景区”服务,解决游客在景区容易遇到的迷路、拥塔、排队等问题。令人印象深刻的是,为了给游客提供更加个性化的服务,高德在地图上增加了游览车、游船的线路地址,增加了重要景点的渲染图;在分类筛选中,商店、卫生间、餐厅、灯景区等重要地点信息一目了然,只要游客点击相应筛选按钮,就能方便找到离自己最近的相应地点;同时,导游语音会在游客走到某个对应景点附近时,自动播放。值得一提的是,“智慧景区”引入了热力图,游客可以通过显示的不同颜色,判断该处游客人数的多少,合理安排游览时间。
4.大数据让商业创新更迅猛
大数据对商业领域变革的影响也是十分深远的。未来,无论是在中国,还是在世界其他国家,数据密集型产业将成为发展最快的产业。拥有数据最多的公司将迅速崛起为这个时代的领军公司。Netflix是北美最大的付费订阅视频网站。2012年,Netflix准备推出自制剧。不过,在决定拍什么、怎么拍上,Netflix推出了自己的秘密武器一一大数据。通过在该网站上用户每天产生的行为,如收藏、推荐、回放、暂停等,包括用户的搜索请求等,Netflix进行精准推测,预测出凯文·史派西、大卫·芬奇和BBC出品三种元素结合在一起的电视剧产品将会大火特火,于是便融合三者拍了一部《纸牌屋》,结果大获成功,成为2013年全球最火的美剧。
四、中国:从“数据大国”走向“数据强国”
大数据时代的到来,让“数据驱动”成为新的全球大趋势。世界各国纷纷利用大数据提升国家治理能力,“得数据者得天下”已成为全球的普遍共识。
美国是世界上最早对大数据技术革命作出战略反应的国家。2012年3月,奥巴马政府宣布了“大数据研发计划”,并设立了2亿美元的启动资金,认为这事关美国的国家安全和未来竞争力。迄今为止,美国在大数据方面实施了三轮政策,开放了50多个门类的数据确保商业创新。为促进大数据的相关研发,美国政府还在斯坦福、伯克利等大学开设全新的大数据课程,为大数据时代储备“数据科学家”。欧盟正力推《数据价值链战略计划》,用大数据改造传统治理模式,试图大幅度降低公共部门成本,并促进经济增长和就业增长。预计,到2020年大数据技术将为欧盟创造9570亿欧元GDP,增加就业人数380万。日本颁布了“面向2020年的ICT(信息Information、通讯Communication、技术Technology)综合战略” 积极谋划利用大数据改造国家治理体系,提升国家竞争力。2013年6月,安倍内阁正式公布新IT战略《创建最尖端IT国家宣言》,以开放大数据为核心的IT国家战略,要把日本建设成为一个具有“世界最高水准的广泛应用信息产业技术的社会”
此外,一些国际组织也十分关注大数据的发展。联合国于2009年推出了“全球脉动”项目,提出大数据是纳米技术和量子计算之后的一个颠覆性变化,用这个技术对推特(Twitter)和脸书(Facebook)等互联网数据和文本信息进行实时分析检测,使用语言解密文件对互联网世界进行“情绪分析”,可以对疾病、动乱、种族冲突提供早期预警,以提前指导援助项目。
由于大数据可以通过互联网跨越时空在全球范围内流动,从国家安全角度来看,大数据已经成为大国之间博弈和较量的利器。未来,国家竞争的焦点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分为数据强国与数据弱国两大陆。值得振奋的是,中国具备成为数据强国的优势条件。
第一,中国拥有丰富的数据资源。中国拥有全球第一的人口数、互联网用户和互联网用户数,国土面积广、经济体量大,拥有其他国家难以企及的海量数据资源,北京公交一卡通一天刷卡量可达4000万次,其中地铁1000万次,联通用户上网记录每秒83万条,对应数据量为每年3.6PB。IDC预计到2020年中国的数据总量将达到8.4ZB,占全球数据量的24%,中国将成为世界上第一数据大国和“世界数据中心”。
第二,中国大数据的应用和发展有广阔的市场空间,当前大数据在电商广告和搜索等业务上取得了越来越深入的应用。金融、医疗、教育等行业也把大数据作为重要抓手,发展跨界应用,电信和金融等信息化技术好的领域已经在积极推进自身数据整合,城市化大数据再细分、经营分析、反欺诈、征信等方面的运用已取得了进展,技术大数据的创新创业项目也在涌现,当前全社会形成了推动大数据应用发展的良好氛围,为大数据的发展提供了强大动力。
第三,中国大数据的发展已经具备了一定定的技术基础和产业基础。中国互联网大数据应用具备全球领先的潜力,互联网作为天然的数据平台和数据集散地,是大数据发展的起源地和价值蓝海。在网络基础设施方面,截至2015年6月底,中国固定宽带接人用户超过2亿,8M以上带宽占比超过了53%,移动用户达到了6.74亿,其中4G用户也达到了2.25亿。全国经营性互联网数据中心超过了1000个。随着降低网络资费的进一步实施,中国的互联网能力还将进一步增强。中国部分互联网公司在大数据应用方面已经处于全球领先水平。2014年互联网趋势报告中提到:依据月独立用户访问量评出的全球十大网站中有四家来自中国,分别为阿里、腾讯、百度和搜狐。目前,百度、腾讯、阿里等骨干互联网企业已建立了世界上规模最大的大数据平台,单集群规模达到上万台,在分布式系统、超大规模数据仓库、深度学习等关键技术上有所突破。此外国内在数据处理分析、语音识别、视频识别、商业智能软件、数据中心建设和维护、IT咨询等领域都已有代表性企业,可初步构成获取、存储、处理、应用的大数据产业链。
尽管存在成为数据强国的潜力,但与国外先进国家相比,我国要从数据大国转变为数据强国,依然面临以下几个严峻的挑战。
第一,政府数据开放共享不够,潜在价值大量淹没。政府和公共部门是最大的信息数据生产、收集、使用和发布的单位,政府掌握着80% 的数。但现实情况是,海量的数据分散在各个部门、各个层次,彼此分割,形成一个个“信息孤岛”,且对社会、公众开放严重不够。由于数据开放程度不足,我国大量的政府数据处于“休眠”状态,而企业拥有的大数据技术和计算能力却无用武之地,陷入“巧妇难为无米之炊”的状态,据估算损失的潜在价值不可小视。
第二,个人隐私法律缺位,信息滥用引发焦虑。随着O2O模式的广泛运用(注:与020这个概念是2010年由AlexRampell提出来的,英文为OnlinetoOffline,也即将线下商务的机会与互联网结合在了一起,让互联网成为线下交易的前台。),用户的个人信息已在不经意间流出,个人隐私数据泄露带来的危险增大。我国缺少关于个人隐私和商业机密的专门法律法规和政策制度,对于公民隐私权和知情权的范围有待厘清。传统的个人信息保护制度,在大数据场景下变得越来越难以操作。政府如何建立规则、适度监管、合理开发个人数据的价值,是必须正视并亟待解决的问题。
第三,数据控制力尚未引起足够重视,数据话语权堪忧。大数据时代,数据控制力是国家战略控制力,掌握了数据就掌握了话语权。我国大数据发展形态较为单一,核心技术仍受制于人,电脑、手机、芯片、服务器、搜索引擎、操作系统、软件等核心的数据“基础设施”大量依赖进口,数据资产极易流失,数据主权极易受到侵蚀。
第四,人才培育机制薄弱,数据分析型、复合型人才短缺。与信息技术其他细分领域人才相比大数据产业对人才的复合型能力要求更高,尤其是具备综合掌控数学、统计学、机器学习等方面知识的复合型人才,同时又可承担数据分析和数据挖掘的数据科学家。我国大数据应用起步相对较晚,教育和职业培训尚不能很好地满足行业发展需求,人才缺口已经超过100万人。目前,我国每年培养的大数据深度学习方面的博士生大概只有50人左右。据中国商业联合会数据分析专业委员会的统计,大型互联网企业的招聘职位里,60%以上都在找大数据人才。大数据是一个新兴事物,高校、院所里培养的人才还不多。这种现象在短时间内很难改变。在我国,目前也只有清华大学、复旦大学等少数高等学府设立了与大数据研究有关的学院。
大数据是一场于中国前途未来,涉及格局深刻调整的革命。幸运的是,这场革命才刚刚开始,面对机遇与挑战,中国已经有了大思路、大举措。首先,完善国家顶层设计,全面实施“国家大数据”战略。2014年3月,“大数据”首次写进了政府工作报告,大数据正式作为一种新兴产业,得到了国家层面的大力支持。2015年10月29日,党的十八届五中全会通过的“十三五”规划建议提出,要“实施国家大数据战略推进数据资源开放共享”。大数据第一次写入党的全会决议,标志着大数据战略正式上升为一项国家战略。
其次,系统部署大数据发展工作,实施《促进大数据发展行动纲要》。
一是确立了大数据发展的核心理念和管理机制,即数据的共享和开放。其享和开放贯穿于大数据发展的全过程,既要推动政府数据开放共享,建成国家政府数据统一开放平台,也要推动社会数据共享,形成全社会开发利用数据的氛围,还要把政府数据、社会数据和其他各类数据互联互通起来,释放出数据红利。
二是培育高端智能、新兴繁荣的大数据产业发展新生态。这个新生态包括:发展大数据与传统产业协同发展的工业大数据应用、新兴产业大数据应用和农业大数据应用等新业态、新模式;发展大数据产品和解决方案,包含大数据软件、硬件和核心基础产品的大数据产品体系以及各行业大数据应用的解决方案;建立大数据基础研究和安全可信的大数据技术体系,其中涉及海量数据存储、数据清洗、数据分析发掘、数据可视化、信息安全与隐私保护等领域关键技术研发;以大数据应用、大数据产品和解决方案、大数据基础研究和技术体系为基础,共同建立起政产学研用联动、大中小企业协调发展万众创新创业、公共服务保障支撑的完整的大数据产业生态体系。
三是规划了十大重点工程和一系列国家和区域大数据平台建设任务。围绕工程的推进,将建设起政府数据统一共享交换平台、国家政府数据统一开放平台、国家大数据平台、数据中心等一系列国家和地方大数据平台,并在经济社会各个领域推进大数据应用示范和试点,兴起大数据建设的热潮。
延伸阅读篇目推荐:
《国家大数据战略----习近平与“十三五”十四大战略》,《学习中国》2015年11月12日
《畅想数据之巅》,徐子沛《南方都市报》2015年11月22日
《大数据将给百斗生活活带来什么》,《科技日报》2015年4月14日
资料链接
链接一:政策措施
1.大数据首次写入政府工作报告
2014年3月5日,国务院总理李克强在十二届全国人大二次会议上作政府工作报告时说“要设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展”。这是“大数据”首次进入政府工作报告,也表明其作为一种新兴产业,得到了国家层面的大力支持。(摘自2014年3月6日新华网)
2.国务院办公厅印发《关于运用大数据加强则市场主体服务和监管的若干意见》
2015年7月1日,国务院办公厅印发《关于运用大数据加强对市场主体服务和监管的若干意见》。要求以社会信用体系建设和政府信息公开、数据开放为抓手,充分运用大数据、云计算等现代信息技术,提高政府服务水平,促进市场公平竞争,释放市场主体活力,进一步优化发展环境。这是中国顺应大数据时代潮流,运用现代信息技术加强政府公共服务和市场监管,推动简政放权和政府职能转变的一个重要文件。(摘自2015年7月1日中国政府网)
3.国务院印发《关于促进大数据发展的行动纲要》
2015年8月31日,国务院印发《关于促进大数据发展的行动纲要),这意味着我国大数据发户来顶层设计。《纲要》强调一要推动政府信息系统和公共数据互联共享,消除信息孤岛,加快整合各类政府信息平台,避免重复建设和数据“打架”,增强政府公信力,促进社会信用体系建设,优化推动交通、医疗、就业、社保等民生领域政府数据向社会开放,在城市建设、社会救助、质量安全、社区服务等方面开展大数据应用示范,提高社会治理水平。二要顺应潮流引导支持大数据产业发展,以企业为主体、以市场为导向,加大政策支持,着力营造宽松公平环境,建立市场化应用机制,深化大数据在各行业创新应用,催生新业态,新模式,形成与需求相结合的大数据产品体系,使开放的大数据成为促进创业创新的新动力。三要强化信息安全保障,完善产业标准体系,依法依规打击数据滥用,侵犯隐私等行为,让各类主体公平分享大数据带来的技术、制度和创新红利。(摘自2015年8月31日中国政府网)
4.大数据战略正式上升为国家战略
2015年10月29日,党的十八届五中全会通过的“十三五”规划建议提出,要“实施国家大数据战略,推进数据资源开放共享”。这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略。五中全会,开启了大数据建设的新篇章。(摘自2015年11月8日人民网)
链接二:权威声音
1.习近平:信息掌握的多寡是国家软实力和竞争力的重要标志
2014年2月27日,习近平总书记在中央网络安全和信息化领导小组第一次会议上指出:“网络信息是跨国界流动的,信息流引领技术流、资金流、人才流,信息资源日益成为重要生产要素和社会财富,信息掌握的多寡成为国家软实力和竞争力的重要标志。”(摘自2014年2月27日新华网)
2.李克强:大数据、云计算是大势所趋
2014年7月25日李克强总理考察山东浪潮集团:“不管是推动政府的简政放权、放管结合,还是推进新型工业化、城镇化、农业现代化,都要依靠大数据云计算,所以,它应该是大势所趋,是一个潮流。”(摘自2014年7月25日中新网)
3.李克强:把执法权力关进“数据铁笼”
2015年2月14日,李克强总理在考察北京·贵阳大数据应用展示中心时说:“把执法权力关进“数据铁笼”,让失信市场行为无处遁形,权力运行处处留痕,为政府决策提供第一手科学依据,实现“人在干,云在上”。”(摘自2015年2月14日新华网)
4、李克强:发展大数据的三个关键词
2015年8月19日,国务院常务会议的议题之一,是讨论研究《关于促进大数据发展的行动纲要》。会上,李克强总理强调,制定大数据行动纲要,要突出围绕“政府大数据建设”和“创造健康发展的大数据”这两个核心内容展开。李克强总理的讲话重点凸显的3个“关键词”
共享。政府大数据建设,首先要实现所有部门的数据“共享”。目前,政府各部门已经建成了十几个数据平台,但问题是,这些平台相互不连通,只是一个一个的“信息孤岛”。什么叫“共享”?起码要有个连接,打开你的就能把其他的打开。共享过程中如果出现重叠,那就要进行衔接,实现数据整合。
开放。有一些引导社会经济发展的数据,不涉及国家秘密的,都应该向公众开放,以方便大家使用。特别是一些与信用相关的数据平台,如果信息不共享、不开放,就会阻碍社会信用体系的建立。从另一方面讲,相关数据的开放,也会倒逼政府数据发布的真实性和规范性。现在一些地方、部门发布的数据,有时候会相互“打架”,老百姓都搞不清楚究竟哪些数据是真实的。这怎么提高社会治理能力,怎么建设现代政府呢?
安全。互联网等行业已经在不断创新、发展大数据产业。政府既要“扶持”,为大数据产业创造一个健康发展的环境,又要“引导”“规范”,保障信息安全。要完善产业标准体系,依法依规打击数据滥用、侵犯隐私等行为,让各类市场主体公平分享大数据带来的技术、制度和创新活力。大数据产业的潮流不可阻挡,我们要顺势而为。(摘自2015年8月19日中国政府网)
链接三:观点
1、国家行政学院常务副院长马建堂:大数据可以为决策者解决“四个问题”,提升“两种能力”
一是解决“坐井观天”的问题。以往人们决策只能基于视野之内极为有限的局部信息,和井底之蛙无异,大数据则可以实现整个苍穹尽收眼底;二是解决“一叶障目”的问题,以往不具备全样本数据分析能力,只能用小样本分析近似推理,犹如从“泰山”中取来“一叶”,而真理可能存在于全样本的海量数据之中,借助大数据则可以完全克服;三是解决“瞎子摸象”的问题。七个瞎子根本无法根据各自的认识加总出完整的大象,因为他们的信息是相相互离散的,无法有效关联起来,而大数据的基本优点就是在深入关联中还原事物原貌;四是解决“城门失火,殃及池鱼”的问题,人们习惯于因果分析,遇到这种“稀奇古怪”的因果链则很难前瞻和推理,但大数据注重相关关系,可以准确地挖掘出规律。
提升两种能力,一个是“一叶知秋”的能力,体现大数据敏锐的洞察能力,另一个是“运筹帷幄,决胜千里”的能力,体现大数据对时空约束的突破。(摘自2015年9月12日光明网)
2.阿里巴巴集团董事局主席马云:未来最大的能源是数据
IT(信息技术)时代是让自己更强大,DT(数据技术)时代是让别人更强大,IT时代是让别人为自己服务,DT是让你去服务好别人,让别人更满意,是以竞争对手服务竞争对手。IT时代是通过对昨天信息的分析掌控未来,控制未来,而DT时代是去创造未来。IT时代让20%的企业越来越强大,而80%的企业可能无所适从。而D丁时代是释放80%企业的能力,所以整个世界将会发生翻天覆地的变化。IT时代把人变成了机器,而DT时代把机器变成了智能化的人,所以我们正在进入一个新型的时代。未来的制造业不仅仅是会生产商品和产品。未来的制造业制造出来的机器必须会思考,必须会说话,必须会交流,未来所有的制造业都将会成为互联网和大数据的终端企业。未来的制造业要的不是石油,它最大的能源是数据。(摘自2015年5月27日,每日经济新闻)
3、 奇虎360董事长周鸿祎:真正的大数据附才刚刚开始
无线互联网将成就下一个时代,有人谈工业4.0,有人谈IOT,我更喜欢IOT这个概念,IOT最大的不一样是什么呢?首先很多人把它庸俗化,叫做物联网。其实互联网是一个技术,加了一些传感器,而事实上IOT不仅仅是技术上加了一点传感器,它最重要的是把产品互联网化,把商业模式互联网化。未来最好的商业模式就是如何通过IOT技术做一个产品,把这个产品和你的用户和企业联系起来。所谓工业4.0、IOT,讲的就是这概念。IOT其实会给大家提供更多的机会,当大家都站在这儿羡慕小米,或者羡慕那些新兴企业的时候,有些企业成功了之后往往会做这个总结,说某某时代已经结束了,市场上第一、第二已经出来了,不需要大家在进入了,错了!想想所有能看到的东西,从汽车到房子,从电灯开关,从眼镜到手表,甚至工业化里的车床、集装箱、运输设备,如果都变成了智能化,中国未来5年会有200亿至500亿台设备接入互联网,他们7×24小时产生的数据那才叫大数据,真正的无线互联网、真正的大数据时代才刚刚开始。(摘自2012年12月23日新华网思客)
注:IOT是Internet Of Things的缩写,字面翻译是"物体组成的因特网",准确的翻译应该为"物联网"。物联网(Internet Of Things)又称传感网,简要讲就是互联网从人向物的延伸。
"物联网"(Internet Of Things)指的是将各种信息传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。其目的是让所有的物品都与网络连接在一起,方便识别和管理。
4.百度CEO李彦宏:大数据的难点不在制造新硬件,而是找到什么数据有价值
近来,可穿戴设备一直是业界热议的话题,其产生的大数据如何能够有效地利用起来,也一直是待解的谜题。有数据显示,过去两年,我们生产的数据,占人类所有数据总和的90%。也就是说,我们古人生产的数据还不到10%。尽管数据很多,各行各业都在说自己生产了很多很有价值的数据,但好多都是没有价值的数据,不是我们真正想要的数据。像智能手环收集到很多数据,有走了多少步路,消耗了多少卡路里,但是没法分析,不能帮助用户解决问题,大多牛都没用。但是,这个仍代表发展方向。比如,吃饭我们要用筷子,能不能测量出饭菜里有没有地沟油呢,但是我们没有这样的数据来衡量。再比如我们平时用到的牙刷,可不可以通过牙刷测试我们的唾液,来查看我们的身体有什么样的症状,这可不可以做出来呢?这样的数据,都是自然而然的收集。所以,大数据的难点不是说生产个硬件出来,而是识别出什么数据对你有价值。(摘自2014年5月30日中国企业家网)
5、国家信息中心常务副主任杜平:八类数据可产生真正的大数据价值
第一类是政府信息,主要是打通部门之间的信息孤岛,实现信息共享。第二类是公共数据无论是政府机构还是科研院所,大学的公共资源,可以依法依规通过脱敏揭秘之后公开,而且要采取基本免费的方式。第三类是商务数据,上述趋势在商务过程中形成的有成本,不是政府的投资,因此可以考虑有价转让、同质交换、协议共享,等等。第四类是互联网数据,现在真正推动大数据使用的,就是运用大量的互联网数据,形成不同的算法,最后形成不同的产品。第五类是通信数据,包括移动电话、微信,等等。这类数据可能是需要加密,运动的时候脱敏。第六类是空间地理数据,这里数据要分类,基础信息可以直接公开,专业化信息可以采取协议获取的方式。第七类是物联网数据,这类数据也要分一下类,一类是政府公共的,通过公共监测获取的数据要公开,如果是企业自身通过平台上形成的,可能还得去购买。第八类是金融数据,目前征信体系里做信用评级的是准入获取,使用上是受到限制的,叫应用受限。(摘自2015年11月9日中国电子商务资讯网)
链接四:数据
1.大数据时代的数据规模
截至2011年4月,美国的国会图书馆拥有235TB的数据,这是美国存储数据量最大的图书馆之一;全球企业2010年硬盘上存储的数据超过7EB,1EB等于10亿GB,相当于美国国会图书馆中存储数据的400多倍;全球消费者在个人电脑、设备上存储了超过6EB的新数据;美国的17个行业大类中,有15个行业的数据储存量超过了美国国会图书馆;2010年全球有50亿的手机使用量;每个月有300亿篇内容分享在Facebook上。人类社会数据规模飞速增长的同时,数据存储能力也在惊人的提升,比如,现在你只需600美元购买一个移动磁盘驱动器,就能够储存世界上所有的音乐。(摘自人民出版社《大数据领导干部》)
2、晶体管的产量多个全世界的大米颗粒
晶体管由硅构成,相当于一个开关,通电的时候表示“1”,不通电的时候表示“0”,是电子产品最小组织单元。一部手提电脑大约有400亿个晶体管,一部智能手机大约有10亿个晶体管。晶体管行业(即半导体产业)堪称人类历史上最高产的行业。现在一年生产的晶体管比全球一年消耗的大米颗粒还要多:2002年,人类生产的晶体管数量大概是大米粒的40倍,买一粒米的钱可以购买100个晶体管;2009年,晶体管的产量上升到大米粒的250倍,一粒米的价钱可以购买10万个晶体管。(摘自涂子沛的《数据之巅》)
链接五:名词解释
1、信息公开与数据开放:信息公开与数据开放是两个完全不同的概念。简单的说公开是信息层面,是一条一条的公开;开放是数据库层面的,一片一片的。公开及告知,是知情权的载体,开放式将原始数据以机器可读的形式放在互联网上,让别人你下载就可以自由使用,他是技术层面的,是为了让社会更好地运用数据资源,推动经济发展和社会创新。例如公共财政公开,官员财产公开,今天很多国家已经不是把一个数据结果告诉大众,我是把整个公共支出的数据细目以数据库的形式放到互联网上,以供大家分析使用。
数据开放,本质上是一种内开放。一提开放,很多人想起“对外开放”,其实内开放更重要。当下,对数据开放也有很多理解的误区,例如很多人认为开放就意味着“免费”,其实企业的数据,也可以以收费的形式开放。开放也是有层次的,可以对某个群体、某个组织,也可以对全社会开放。在大数据的时代,开放数据的意义,更在于让数据这种生产资料流动起来,以催生创新,推动知识经济和网络经济的发展,也可以促进中国的经济增长由粗放型向精细型转型。(摘自2015年11月20日《南方周末》)
2.理解几个主要的存储单位
你一首音乐约等于4兆(M)
一部电影约等于1吉(G,1吉=1024兆,相当于250首歌曲的大小)
一个普通图书馆的藏书约等于1太(T,1太=1024吉,相当于1024部电影的大小)
谷歌每小时处理的数据为1拍,美国邮政局一年处理的信件大约为5拍(P,1拍=1024太)
13亿中国人人手一本500页的书加起来的信息量相当于一艾(E,1艾=1024拍)
截至2010年人类拥有的信息总量大概是1.2泽字节(Z,1泽=1024艾)
(摘自涂子沛《数据之巅》《大数据》)
链接六:案例
1、温州姑娘用大数据上书彭丽媛披肩尺寸
习近平访英期间,在参观英国帝国理工学院数据科学研究所时,研究所除了向他介绍研究成果,还向随行的彭丽媛赠送了一件苏格兰羊毛披肩,有趣的是,这条披肩的尺寸就是利用大数据技术放出来的。
研究所郭毅可教授详细介绍了披肩的制作过程
第一步,研究所从网上下载了700多张彭丽在不同场合的照片。“根据这些照片包括照片里的参照物,我们能大致算出他的身高三围等尺寸”。第二步,用得出的数据设计披肩样子,这条披肩是由一个在伦敦当设计师的温州姑娘,他很年轻才28岁,挑选颜色时,设计师参考了彭丽媛以往的穿搭以及她本身的气质,最后选定带点蓝调的灰色。由于彭丽缓是一名军人, 他们在设计样式的时候,添加了一些英气的元素,比如肩膀处有两个肩章,整体走帅气风。这个款式的服装,在英国古代是猎装,所以很符合彭丽援军人的气场。第三步,建立3D动画模型,把设计好的披肩“PS”到模型上,看看是否合身,再反复进行微调。整个设计、制作的过程花了一两个月时间。
给彭丽缓定制披肩,是大数据科学与时尚之间的一次有趣碰撞。但大数据的应用。远比这次合作广得多。
习近平主席参观数据研究所时,郭毅可向他介绍的是“中国人口迁移与城市化的大数据分析”项目的其中一个研究成果---“一带一路”战略影响力及中国人口迁移分析。
当时,郭毅可通过硬件民一个数据可视化设施---全球数据观察站,向习近平主席做了演示。进行可视化处理后,繁杂的数据变得井然有序、一目了然。
郭毅可介绍,这套设施由64个46寸的高清屏幕组成,一共有37台计算机在背后驱动。之前有报道称,这是全球最大的数据可视化设施。郭毅可澄清,应该是欧洲最大的。
这个项目,浙江大学公共管理学院和英国帝国理工学数据科学研究所合作了一年多。显然,这是大数据与社会科学的有机结合。郭毅可说,研究所的任务之一就是开展艺术与科学融合新的多学科交叉,另一大任务是培养新一代数据科学家。郭毅可说,很多人把数据科学家看作帮人分析数据的由来,但在他看来,数据科学家是主人,而不是处于“帮佣”的地位。(摘自2015年11月8日中国新闻网)
2.一件定制西装的大数据之旅
故事从美国人大卫想定制一件西装礼服说起。
以前,大卫会毫不犹豫地把这项工作交给自己最信任的裁缝罗西,可是罗西出活太慢,一件西装要做3个月。这次大卫要出席一个非常重要的活动,只有半个月的时间。怎么办呢?
正在大卫发愁的时候,一位朋友向他推荐了中国青岛的红领西装集团。这家公司承诺,只要给大卫量了身材,拿到数据,不到半个月的时间,一身高档定制西装就能漂洋过海,送到大卫手中。虽然将信将疑,但是时间不等人,大卫还是决定试一试。
“看菜吃饭,量体裁衣”。红领集团美国经销处的量体师很快应约来到大卫的家里,采集了大卫的肩宽、中腰位、上臂围等19个部位的数据,还记录了大卫对面料花型、色系、肩型、胸口袋等多项内容的要求。
数据收集完成之后,大卫提交了订单。第二天早上,大卫还在做美梦呢,他的全部定制信息已经进入到红领公司在中国的车间操作系统。操作工王娟负责第一个流程。她仔细核对了大卫的订单,把50多个西装定制细节一一你录入到一张电子标签上。录入完成之后,就正式开启了自动化生产。布料部门根据数据计算出了最节约面料的剪裁方法。操作工张君把大卫预定的面料放在裁床上,轻轻点击确认,机器裁床就根据指令完成了自动裁剪。裁剪完毕之后,张君把剪裁好的面料随着电子标签一起夹在车间上班的吊牌上,面料和电子标签就进入了400道工序间进行自动流转。
每位工人在接到衣服之前都会先扫描电子标签,并根据电子屏幕上显示出来的定制要求做相应的处理,钟云芳的工作是最后一道工序缝制袖扣。刷卡显示,大卫预定的紫色扣眼线和6颗暗蓝色袖扣,钟云芳快速完成了袖口的缝制。
在25个质检环节完成之后,大卫的新大功告成正式下线,这时已经是大卫下单之后的第七天,接着,这件西服“坐”上飞机,经过三四天的空中转运,西装到了大卫手中。未来,如果大卫还想定制西装,只需要打开网页或者手机app,就可以看到自己的衣服进展到了哪一道工序上,甚至知道自己这件衣服每道工序是由哪一位工人在操作。大数据时代,会有越来越多的惊喜等着大家。(摘自《时事》增刊《五色花耀中华》)
3.大数据如何捧红《纸牌屋》
2013年最火的一部美剧当数《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家类似于中国土豆和优酷的在线视频播放网站NetfliX。
Netf1ix是北美最大的付费订阅视频网站。2012年,Netflix准备推出自制剧。不过,在决定拍什么、怎么拍上,Netflix推出了自己的秘密武器一一大数据。通过在该网站上用户每天产生的行为,如收藏、推荐、回放、暂停等,包括用户的搜索请求等,Netflix进行精准推算,预测出凯文·史派西、大卫·芬奇和“BBC出品”三种元素结合在一起的电视剧产品将会大火特火,由此大获成功。
Netflix官方称,挖掘用户行为的“大数据”已经很长时间了,《纸牌屋》是其数据分析结果的第一次战略运用。什么是“大数据”呢?美国新闻网站Salo.com的一篇文章解释得很清楚:用户只要登录Netflix网站,对某一个视频的每一次J点击、播放、暂停、快进、回放,看了几分钟就彻底关掉视频,或者停了一段时间又重启,都会成为一个“事件”,被记录下来,并汇入后台分析。“Netflix或许并不能准确知道点击暂停按钮的个人原因,但是如果足够多的人在整段视频中的同一个地方做了相同的举动那么数据就开始显露意义了”。结果是,Netflix比观众还要清楚自己的观影喜好。
根据官方公布的数据3/4的订阅者都会接受Netflix的观影推荐。这意味着,Netflix不用一集一集地攒《纸牌屋》这一新剧的口碑,只需向标签为“喜爱”凯文·史派西或“喜爱政治剧”的观众推荐一下就行了。
Netflix通过大数据观测到另一流行趋势,越来越多的人不再像30年前那样,在固定晚上固定时刻守在电视机前,等着收看电视剧的最新剧集,而是“攒”起来,直到整季剧情全部播放完毕之后才选一个自己方便的时段和地点,在方便的设备多数是网络设备,如电脑、IPad上一次性观看。
对于剧集的创作者来说,Netflix这种经由数据保证的投资决策,给了他们从未有过的自由度。在与Netflix合作前,导演大卫·芬奇拿着从BBC原剧改编过来的剧本大纲把电视台找了个遍,没有一家愿意承诺第一季的投拍。Netflix看中并一口气投资1亿美元。为了邀请到“红火三要素”之一凯文·史派西出演该剧,剧组又等了10个月。
长年以来,为了提高算法精准,Netflix一直举办大型比赛招贤纳士,以此拓宽数据挖掘处理能力。几年前,Netflix还以百万美元奖金征集算法,开放了部分数据库,向全球数学家和IT人士借力。虽然要求很简单,只需要让网站的推荐系统的能力上调10%,但是开放的数据竟然包括近50万个匿名用户、2万部电影、10亿次评分。“超级富矿”的体量已经大到很难咬下
第一口。(摘自2013年9月9日《南京日报》)
4.亚马逊深挖“用户行为信息”
何为“用户行为信息”呢?简单地说,就是用户在网站上发生的所有行为,如搜索、浏览、打分、点评、加入购物筐、取出购物筐、加入期待列表、购买、使用减价券和退货等;甚至包括在第三方网站上的相关行为,如比价、看相关评测、参与讨论,社交媒体上的交流、与好友互动等。
在电商领域中,用户行为信息量之大令人难以想象。据专注于电商行业服务设施行为分析的公司的不完全统计,一个用户在选择一个产品之前,平均霜浏览5个网站、36个页面,在社会化媒体和搜索引擎上的交互行为也多达数十次。如果把所有可以采集的数据整合并进行衍生,一个用户的购买可能会受数千个行为维度的影响。对于一个一天PU近百万的中型电商来说,这代表着一天近1TB的活跃数据。而放到整个中国电商的角度来看,更意味着每天高达数千TB的活跃数据。
正是这些购买前的行为信息,可以尝试地反映出潜在客户的购买心理和购买意向。例如,客户A连续浏览了5款电视机,其中4款来自国内品牌S,1款来自国外品牌T;4款为LED技术,1款为LCD技术;5款的价格分别为4599元、5199元、5999元、7999元;这些行为某种程度上反映了客户A对品牌认可度及倾向性,如偏向国产品牌、中等价位的LED电视。而客户B连续浏览了6款电视机,其中2款是国外品牌T,2款是另一国外品牌V,2款是国产品牌S;4款为LED技术,2款为LCD技术;6款的价格分别为5999元、7999元、8300元、9999元、11050元;类似地,这些行为某种程度上反映了客户B对品牌认可度及倾向性,如偏向进口品牌、高众的LED电视等。
亚马逊通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。例如:当客户浏览了多款电视机而没有做购买的行为时,在一定的周期内,把适合客户的品牌、价位和类型的另一款电视机促销的信息通过电子邮件主动发送给客户;再例如,当客户再一次回到网站,对电冰箱进行调览行为时,可以在网页上给客户A推荐国产中等价位的冰箱,而对客户B推荐进口高档价位的商品。
这样的个性化推荐服务往往会起到非常好的效果,不仅可以提高客户购买的意愿,缩短购买的路径和时间,通常还可以在比较恰当的时机捕获客户的最佳购买冲动,也降低了传统的营销方式对客户的无端骚扰,还能提高用户体验,是一个一举多得的好手段。(摘自2013年9月4日36氨网)
5. 大数据让北京朝阳大悦城迅速盈利
2012年北京朝阳大悦城销售额近15亿元,同比增长40%,开业不足3年便实现了盈利。放在整个中国百货零售业态中来看,大悦城的迅速盈利显得十分难得。
是什么让朝阳大悦城迅速盈利?是大数据的运用。他们基于对商场客户群和营业额相关性的详细数据调研和分析,进行精准定位决策,改变了商场营收的具体方向,迅速提升了营业额和净利润。
2010年项目初期,北京朝阳大悦城IT资讯部助理总监张岩带领的团队负责该项目的各种商业数据表格制作,工作琐碎、繁重,看不出创意和价值。不久,一份对商场营业额相关性分析的报告,引进了张岩团队的注意,依据对车流量、客流方向、用户群消费特点等的分析,张岩和他的团队给出了改善商场营收的具体建议,引起管理层重视,一些可靠性建设被迅速采纳。
此后,数据的价值在朝阳大悦城的运营中逐渐得到重视,并扭转了其最开始的颓势。
“通过客流监控设备,我们找到了客流量最大的出口,然后将这个出口处的商铺设计成集中在中间的形式。”张岩解释道。这样,在客户原来快速经过的地方,增加了小商铺,也就增加了顾客的驻留时间,“销售额一下子就上来了”。
通过对车流数据的采集分析,张岩团队发现,具备较高消费能力的驾车客户是朝阳大悦城的主要销售贡献客户,平均每个驾车用户一次可为商场贡献约700元的收入。同时发现项目销售变化与车流变化幅度的相关性接近92%,基于此,朝阳大悦城对停车场做了较大改造,如增加了车辆进出坡道,升级车牌自动识别系统,调整车位导识体系等。调整后,日车流量最高
近9000辆,销售额提升约17%,此外,还调整了停车场附近商户,提升楼层消费近30%。
大数据分析带来的精准信息,推动了商场的业务调整,吸引了该吸引的目标客户,从而弥补了朝阳大悦城地处“城乡接合部”的尴尬,虽然其不具备核心商圈优势,但是通过大数据分析却获得更精准的决策,从而提升了营收和利润的空间。
“过去一年,我们在商场的不同位置安装了将近200个客流监控设备,每台设备大概1.5万元左右。”张岩介绍。这是朝阳大悦城的一个重要的数据来源,这是许多试图运用大数据的公司从一开始就面临的最大挑战:如何获取有价值的海量数据。
对传统零售行业而言,由于消费者进入商场的消费目的并不明确,加之所有购买行为不通过互联网留下浏览痕迹,在这种情况下,增加数据来源也成为数据分析团队关注的方面。除分布广泛的客流监控设备之外,朝阳大悦城还通过WIFI站点的登录情况获知客户的到店频率,通过与会员卡关联的优惠得知受消费欢迎的优惠产品。如今,朝阳大悦城定位为以数据驱动的全新购物中心,并已形成为数据为纽带的完整业务管理链条,走在了多数中国零售百货业同行的前面。(摘自2013年1月13日 《财经》)
链接七:历史由来
第一次信息革命:语言的创造
发生在几十万年到几万年前,是猿向人转变的时期。语言,这个信息交流和信息传递的工具’是人类进化史上第一个最伟大的创造。因为语言的发明,使得猿的思维信息可以分享,猿对于世界的认知,就不再是一只猿自己的认知与理解,而是可以把众多的猿认知与理解收集起来,进行分享,这样大大提升了猿对世界的认知程度,也加快了猿的进化速度,这也是人类出现的一个重要推动力。语言的不足之处在于其无法突破时间和空间限制。
第二次信息革命:文字的出现
发生在原始社会末期。这一次信息革命使信息可以被储存在文字中进行传播,解决了语言的时间和空间的局限性。如果信息不能被记录下来,那么信息将是稍纵即逝的,而仅仅凭借人脑的记忆,也难以被传承。文字的出现从根本上解决了这个问题,这也是人类文明的重要基础之一。没有文字就没有历史、没有文化,也就不会有人类文明。但文字因受到存储介质的唯一性约束而导致信息传播范围和效率受限。
第三次信息革命:印刷术的发明
发生在封建社会时期。印刷术发明之前,信息只能近年距离小范围传输,人类文明的发展速度比较慢。造纸术和印刷术这两项发明扩大了信息的交流、传递的容量和范围,信息以更快的速度向其他地方渗透,各种文明得以相互交融、相互借鉴、相互促进、共同发展。印刷术的不足之处在于其本身的传播耗费时间太长。
第四次信息革命:无线电的发明
虽然造纸术和印刷术实现了信息的远距离传播,但效率仍然低下。实现信息的远距离实时传播,成为近代信息革命的重要课题。19世纪末期,无线电的发明根本性地改变了信息传递的手段,电报、电话、广播的使用,使人类进入利用电磁波传播信息的时代。无线电技术,让信息不再仅仅靠纸张这样的载体进行传播,而是通过每秒几十万公里的电磁波进行传播,使得信息的传播速度增长了几十亿倍,前一秒钟发生的事情,马上就会被传播到千里之外,完全突破了以前信息传播的时间和空间限制。无线电的不足在于其可以承载传输的信息内容比较简单,传输带宽也不够高。
第五次信息革命:电视的出现
20世纪初电视出现了。这种实时多媒体的传播介质实现了信息不再是仅能通过单一介质进行传播,使得声音、图片、影像、文字可以同时传播,同时也可以进行信息的远距离实时传播。电视是现代文明的标志物,媒体形式丰富,传播信息量大,成为20世纪50年代一直到今天最主流的媒体平台。电视的缺点是信息只能进行点到面的传播,也不支持信息的及时反馈。
第六次信息革命:计算机与互联网的使用
20世纪中叶,电脑的出现从根本上改变了人类加工信息的手段,突破了人类大脑及感觉器官加工利用信息的能力。由电子计算机、通信卫星、光导纤维组成的现代信息技术革命的成果,使人类进入了信息社会时代。互联网最大的价值在于它不仅继承了无线电和电视技术的优点,而且让信息传播实现了实时的双向交互。
在经历了这六次信息革命之后,人类发展史上会不会出现第七次信息革命?世界管理思想大师彼得·德鲁克,在他新出版的《21世纪的管理挑战)一书中指出:现在我们正经历着一场信息革命。这不是在技术上、机器设备上、软件上或速度上的一场革命,而是一场“概念”上的革命。以往50年信息技术的重点在“技术”上,目的在于提升信息传播范围、传播能力和传播效率。而新的信息革命的重点将会在“信息”上,按照彼得·德鲁克先生的预测,第七次信息革命的重点将是信息本身的有效利用。(摘自人民出版社《大数据领导干部读本》)