数据技术概念以及应⽤领域完全解读
在写这篇⼤数据⽂章之前,我发现⾝边很多IT⼈对于这些热门的新技术、新趋势往往趋之若鹜却⼜很难说的透彻,如果你问他⼤数据是什么,什么是⼤数据概念?估计很少能说出⼀⼆三来。究其原因,⼀是因为⼤家对⼤数据这类新技术有着相同的原始渴求,⾄少知其然在聊天时不会显得很“⼟鳖”;⼆是在⼯作和⽣活环境中真正能参与实践⼤数据的案例实在太少了,所以⼤家没有必要花时间去知其所以然。
我希望有些不⼀样,所以对该如何去认识⼤数据进⾏了⼀番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎⽚或不同理解论述简单规整并堆积起来形成毫⽆价值的转述或评论,我很真诚的希望进⼊事物探寻本质。
如果你说⼤数据就是数据⼤,或者侃侃⽽谈4个V,也许很有深度的谈到BI或预测的价值,⼜或者拿Google和Amazon举例,技术流可能会聊起hadoop和Cloud Computing,不管对错,只是⽆法勾勒对⼤数据的整体认识,不说是⽚⾯,但⾄少有些管窥蠡测、隔⾐瘙痒了。……也许,“解构”是最好的⽅法。
资料领取⽅式:加⼊⼤数据技术学习交流522189307,点击加⼊聊,私信管理员即可免费领取
怎样结构⼤数据?
⾸先,我认为⼤数据就是互联⽹发展到现今阶段的⼀种表象或特征⽽已,没有必要神话它或对它保持敬
畏之⼼,在以云计算为代表的技术创新⼤幕的衬托下,这些原本很难收集和使⽤的数据开始容易被利⽤起来了,通过各⾏各业的不断创新,⼤数据会逐步为⼈类创造更多的价值。
其次,想要系统的认知⼤数据,必须要全⾯⽽细致的分解它,我着⼿从三个层⾯来展开:
⼤数据
实践
第⼀层⾯是理论,理论是认知的必经途径,也是被⼴泛认同和传播的基线。我会从⼤数据的特征定义
理解⾏业对⼤数据的整体描绘和定性;从对⼤数据价值的探讨来深⼊解析⼤数据的珍贵所在;从对⼤数据的现在和未来去洞悉⼤数据的发展趋势;从⼤数据隐私这个特别⽽重要的视⾓审视⼈和数据之间的长久博弈。
第⼆层⾯是技术,技术是⼤数据价值体现的⼿段和前进的基⽯。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明⼤数据从采集、处理、存储到形成结果的整个过程。
第三层⾯是实践,实践是⼤数据的最终价值体现。我将分别从互联⽹的⼤数据,政府的⼤数据,企业的⼤数据和个⼈的⼤数据四个⽅⾯来描绘⼤数据已经展现的美好景象及即将实现的蓝图。
对⼤数据以及⼈⼯智能概念都是模糊不清的,该按照什么线路去学习,学完往哪⽅⾯发展,想深⼊了解,想学习的同学欢迎加⼊⼤数据学习qq:458345782,有⼤量⼲货(零基础以及进阶的经典实战)分享给⼤家,并且有清华⼤学毕业的资深⼤数据讲师给⼤家免费授课,给⼤家分享⽬前国内最完整的⼤数据⾼端实战实⽤学习流程体系 。从java和linux⼊⼿,其后逐步的深⼊到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识⼀⼀分享!
和⼤数据概念相关的理论
特征定义
最早提出⼤数据时代到来的是麦肯锡:“数据,已经渗透到当今每⼀个⾏业和业务职能领域,成为重要的⽣产因素。⼈们对于海量数据的挖掘和运⽤,预⽰着新⼀波⽣产率增长和消费者盈余浪潮的到来。”河北省专接本考试时间2022
业界(IBM 最早定义)将⼤数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层⾯:第⼀,数据体量巨⼤。⼤数据的起始计量单位⾄少是P(1000个T)、E(100万个T)或Z(10亿个T);第⼆,数据类型繁多。⽐如,⽹络⽇志、视频、图⽚、地理位置信息等等。第三,价值密度低,商业价值⾼。第四,处理速度快。最后这⼀点也是和传统的数据挖掘技术有着本质的不同。
其实这些V并不能真正说清楚⼤数据的所有特征,下⾯这张图对⼤数据的⼀些相关特性做出了有效的说明。
古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不⽤去论证了。维克托·迈尔-舍恩伯格在《⼤数据时代》⼀书中举了百般例证,都是为了说明⼀个道理:在⼤数据时代已经到来的时候要⽤⼤数据思维去发掘⼤数据的潜在价值。书中,作者提及最多的是Google如何利⽤⼈们的搜索记录挖掘数据⼆次利⽤价值,⽐如预测某地流感爆发的趋势;Amazon如何利⽤⽤户的购买和浏览历史数据进⾏有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利⽤过去⼗年所有的航线机票价格打折数据,来预测⽤户购买机票的时机是否合适。
那么,什么是⼤数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本⽽不是抽样;2-关注效率⽽不是精确度;3-关注相关性⽽不是因果关系。
阿⾥巴巴的王坚对于⼤数据也有⼀些独特的见解,⽐如,
2020国考公告职位表
“今天的数据不是⼤,真正有意思的是数据变得在线了,这个恰恰是互联⽹的特点。”
“⾮互联⽹时期的产品,功能⼀定是它的价值,今天互联⽹的产品,数据⼀定是它的价值。”
“你千万不要想着拿数据去改进⼀个业务,这不是⼤数据。你⼀定是去做了⼀件以前做不了的事情。”
特别是最后⼀点,我是⾮常认同的,⼤数据的真正价值在于创造,在于填补⽆数个还未实现过的空⽩。
有⼈把数据⽐喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、⽆烟煤、肥煤、贫煤等分类,⽽露天煤矿、深⼭煤矿的挖掘成本⼜不⼀样。与此类似,⼤数据并不在“⼤”,⽽在于“有⽤”。价值含量、挖掘成本⽐数量更为重要。
价值探讨
⼤数据是什么?投资者眼⾥是⾦光闪闪的两个字:资产。⽐如,Facebook上市时,评估机构评定的有效资产中⼤部分都是其社交⽹站上的数据。
如果把⼤数据⽐作⼀种产业,那么这种产业实现盈利的关键,在于提⾼对数据的“加⼯能⼒”,通过“加⼯”实现数据的“增值”。
中公教育退款Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有⽤户的购买记录作为数据来源,通过构建模型分析购买者的⾏为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。
Target的例⼦是⼀个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的⼀个很有指导意义的观点:通过出⼀个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的⼆次利⽤的典型案例。如果,我们通过采集驾驶员⼿机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的⼈,这些分析数据适合卖给⼴告投放商。
不管⼤数据的核⼼价值是不是预测,但是基于⼤数据形成决策的模式已经为不少的企业带来了盈利和声誉。
从⼤数据的价值链条来分析,存在三种模式:
1- ⼿握⼤数据,但是没有利⽤好;⽐较典型的是⾦融机构,电信⾏业,政府机构等。
2- 没有数据,但是知道如何帮助有数据的⼈利⽤它;⽐较典型的是IT咨询和服务企业,⽐如,埃森哲,IBM,Oracle等。
3- 既有数据,⼜有⼤数据思维;⽐较典型的是Google,Amazon,Mastercard等。
未来在⼤数据领域最具有价值的是两种事物:1-拥有⼤数据思维的⼈,这种⼈可以将⼤数据的潜在价值转化为实际利益;2-还未有被⼤数据触及过的业务领域。这些是还未被挖掘的油井,⾦矿,是所谓的蓝海。
Wal-Mart作为零售⾏业的巨头,他们的分析⼈员会对每个阶段的销售记录进⾏了全⾯的分析,有⼀次他们⽆意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有⼤幅增加,于是他们做了⼀个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了⽅便⽤户挑选,但是没有想到蛋挞的销量因此⼜提⾼了很多。
这些例⼦真实的反映在各⾏各业,探求数据价值取决于把握数据的⼈,关键是⼈的数据思维;与其说是⼤数据创造了价值,不如说是⼤数据思维触发了新的价值增长。
现在和未来
我们先看看⼤数据在当下有怎样的杰出表现:
⼤数据帮助政府实现市场经济调控、公共卫⽣安全防范、灾难预警、社会舆论监督;
⼤数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能⼒;
⼤数据帮助医疗机构建⽴患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使⽤效果,帮助艾滋病研究机构为患者提供定制的药物;
⼤数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺保⾏为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电⼒公司有效识别预警即将发⽣故障的设备;
⼤数据帮助电商公司向⽤户推荐商品和服务,帮助旅游⽹站为旅游者提供⼼仪的旅游路线,帮助⼆⼿市场的买卖双⽅到最合适的交易⽬标,帮助⽤户到最合适的商品购买时期、商家和最优惠价格;
⼤数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升⼴告投放精准度;
⼤数据帮助娱乐⾏业预测歌⼿,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍⼀部电影需要投⼊多少钱才最合适,否则就有可能收不回成本;
⼤数据帮助社交⽹站提供更准确的好友推荐,为⽤户提供更精准的企业招聘信息,向⽤户推荐可能喜欢的游戏以及适合购买的商品。
其实,这些还远远不够,未来⼤数据的⾝影应该⽆处不在,就算⽆法准确预测⼤数据终会将⼈类社会
带往到哪种最终形态,但我相信只要发展脚步在继续,因⼤数据⽽产⽣的变⾰浪潮将很快淹没地球的每⼀个⾓落。
⽐如,Amazon的最终期望是:“最成功的书籍推荐应该只有⼀本书,就是⽤户要买的下⼀本书。”
Google也希望当⽤户在搜索时,最好的体验是搜索结果只包含⽤户所需要的内容,⽽这并不需要⽤户给予Google太多的提⽰。
⽽当物联⽹发展到达⼀定规模时,借助条形码、⼆维码、RFID等能够唯⼀标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够⽀撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是⼤数据的采集数据来源和服务范围。
未来的⼤数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有⼀个可预见的趋势是以⼈为本的⼤数据⽅针。⼈才是地球的主宰,⼤部分的数据都与⼈类有关,要通过⼤数据解决⼈的问题。
⽐如,建⽴个⼈的数据中⼼,将每个⼈的⽇常⽣活习惯,⾝体体征,社会⽹络,知识能⼒,爱好性情,疾病嗜好,情绪波动……换⾔之就是记录⼈从出⽣那⼀刻起的每⼀分每⼀秒,将除了思维外的⼀切都储存下来,这些数据可以被充分的利⽤:
医疗机构将实时的监测⽤户的⾝体健康状况;
教育机构更有针对的制定⽤户喜欢的教育培训计划;
服务⾏业为⽤户提供即时健康的符合⽤户⽣活习惯的⾷物和其它服务;
山东省高校毕业生就业信息网登录社交⽹络能为你提供合适的交友对象,并为志同道合的⼈组织各种聚会活动;
政府能在⽤户的⼼理健康出现问题时有效的⼲预,防范⾃杀,刑事案件的发⽣;
⾦融机构能帮助⽤户进⾏有效的理财管理,为⽤户的资⾦提供更有效的使⽤建议和规划;
道路交通、汽车租赁及运输⾏业可以为⽤户提供更合适的出⾏线路和路途服务安排;
……
2018年国家公务员考试职位表下载
当然,上⾯的⼀切看起来都很美好,但是否是以牺牲了⽤户的⾃由为前提呢?只能说当新鲜事物带来了⾰新的同时也同样带来了“病菌”。⽐如,在⼿机未普及前,⼤家喜欢聚在⼀起聊天,⾃从⼿机普及后特别是有了互联⽹,⼤家不⽤聚在⼀起也可以随时随地的聊天,只是“病菌”滋⽣了另外⼀种情形,⼤家慢慢习惯了和⼿机共渡时光,⼈与⼈之间情感交流仿佛永远隔着⼀张“⽹”。
⼤数据隐私
你或许并不敏感,当你在不同的⽹站上注册了个⼈信息后,可能这些信息已经被扩散出去了,当你莫名其妙的接到各种邮件,电话,短信的滋扰时,你不会想到⾃⼰的电话号码,邮箱,⽣⽇,购买记录,收⼊⽔平,家庭住址,亲朋好友等私⼈信息早就被各种商业机构⾮法存储或贱卖给其它任何有需要的企业或个⼈了。
更可怕的是,这些信息你永远⽆法删除,它们永远存在于互联⽹的某些你不知道的⾓落。除⾮你更换掉⾃⼰的所有信息,但是这代价太⼤了。
⽤户隐私问题⼀直是⼤数据应⽤难以绕开的⼀个问题,如被央视曝光过的分众⽆线、罗维邓⽩⽒以及⽹易邮箱都涉及侵犯⽤户隐私。⽬前,中国并没有专门的法律法规来界定⽤户隐私,处理相关问题时多采⽤其他相关法规条例来解释。但随着民众隐私意识的⽇益增强,合法合规地获取数据、分析数据和应⽤数据,是进⾏⼤数据分析时必须遵循的原则。
说到隐私被侵犯,爱德华?斯诺登应该占据⼀席之地,这位前美国中央情报局(CIA)雇员⼀⼿引爆了美国“棱镜计划”(PRISM)的内幕消息。“棱镜”项⽬是⼀项由美国国家安全局(NSA)⾃2007年起开始实施的绝密电⼦监听计划,年耗资近2000亿美元,⽤于监听全美电话通话记录,据称还可以使情报⼈员通过“后门”进⼊9家主要科技公司的服务器,包括微软、雅虎、⾕歌、Facebook、PalTalk、美国在线、Skype、YouTube、苹果。这个事件引发了⼈们对政府使⽤⼤数据时对公民隐私侵犯的担⼼。
再看看我们⾝边,当微博,,QQ空间这些社交平台肆意的吞噬着数亿⽤户的各种信息时,你就不要指望你还有隐私权了,就算你在某个地⽅删除了,但也许这些信息已经被其他⼈转载或保存了,更有可能已经被百度或Google存为快照,早就提供给任意⽤户搜索了。
因此在⼤数据的背景下,很多⼈都在积极的抵制⽆底线的数字化,这种⼤数据和个体之间的博弈还会⼀直继续下去……
专家给予了我们⼀些如何有效保护⼤数据背景下隐私权的建议:1-减少信息的数字化;2-隐私权⽴法;3-数字隐私权基础设施(类似DRM 数字版权管理);4-⼈类改变认知(接受忽略过去);5-创造良性的信息⽣态;6-语境化。
但是这些都很难⽴即见效或者有实质性的改善。
⽐如,现在有⼀种职业叫删帖⼈,专门负责帮⼈到各⼤⽹站删帖,删除评论。其实这些⼈就是通过⿊客技术侵⼊各⼤⽹站,破获管理员的密码然后进⾏⼿⼯定向删除。只不过他们保护的不是客户的隐私,⽽⼤多是丑闻。还有⼀种职业叫⼈⾁专家,他们负责从互联⽹上到⼀个与他们根本就⽆关系⽤户的任意信息。这是很可怕的事情,也就是说,如果有⼈想到你,只需要两个条件:1-你上过⽹,留下过痕迹;2-你的亲朋好友或仅仅是认识你的⼈上过⽹,留下过你的痕迹。这两个条件满⾜其⼀,⼈⾁专家就可以很轻松的到你,可能还知道你现在正在某个餐厅和谁⼀起共进晚餐。
当很多互联⽹企业意识到隐私对于⽤户的重要性时,为了继续得到⽤户的信任,他们采取了很多办法,⽐如google承诺仅保留⽤户的搜索记录9个⽉,浏览器⼚商提供了⽆痕冲浪模式,社交⽹站拒绝公共搜索引擎的爬⾍进⼊,并将提供出去的数据全部采取匿名⽅式处理等。
在这种复杂的环境⾥⾯,很多⼈依然没有建⽴对于信息隐私的保护意识,让⾃⼰⼀直处于被滋扰,被精⼼设计,被利⽤,被监视的处境中。可是,我们能做的⼏乎微乎其微,因为个⼈隐私数据已经⽆法由我们⾃⼰掌控了,就像⼀⾸诗⾥说到的:“如果你现在继续⿇⽊,那就别指望这⿇⽊能抵挡得住被”扒光”那⼀刻的惊恐和绝望……”
和⼤数据相关的技术
云技术
⼤数据常和云计算联系到⼀起,因为实时的⼤型数据集分析需要分布式处理框架来向数⼗、数百或甚⾄数万的电脑分配⼯作。可以说,云计算充当了⼯业⾰命时期的发动机的⾓⾊,⽽⼤数据则是电。
云计算思想的起源是麦卡锡在上世纪60年代提出的:把计算能⼒作为⼀种像⽔和电⼀样的公⽤事业提供给⽤户。
如今,在Google、Amazon、阿⾥云、景安等⼀批互联⽹企业引领下,⼀种⾏之有效的模式出现了:云计算提供基础架构平台,⼤数据应⽤运⾏在这个平台上。
业内是这么形容两者的关系:没有⼤数据的信息积淀,则云计算的计算能⼒再强⼤,也难以到⽤武之地;没有云计算的处理能⼒,则⼤数据的信息积淀再丰富,也终究只是镜花⽔⽉。
那么⼤数据到底需要哪些云计算技术呢?
这⾥暂且列举⼀些,⽐如虚拟化技术,分布式处理技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识别以及⾃然语⾔理解)等。
2020江苏公务员考试真题云计算和⼤数据之间的关系可以⽤下⾯的⼀张图来说明,两者之间结合后会产⽣如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低⼤数据业务的创新成本。
如果将云计算与⼤数据进⾏⼀些⽐较,最明显的区分在两个⽅⾯:
第⼀,在概念上两者有所不同,云计算改变了IT,⽽⼤数据则改变了业务。然⽽⼤数据必须有云作为基础架构,才能得以顺畅运营。
第⼆,⼤数据和云计算的⽬标受众不同,云计算是CIO等关⼼的技术层,是⼀个进阶的IT解决⽅案。⽽⼤数据是CEO关注的、是业务层的产品,⽽⼤数据的决策者是业务层。
分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机⽤通信⽹络连接起来,在控制系统的统⼀管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。
以Hadoop(Yahoo)为例进⾏说明,Hadoop是⼀个实现了MapReduce模式的能够对⼤量数据进⾏分布式处理的软件框架,是以⼀种可靠、⾼效、可伸缩的⽅式进⾏处理的。
⽽MapReduce是Google提出的⼀种云计算的核⼼计算模式,是⼀种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将⾃动分割要执⾏的问题(例如程序)拆解成map(映射)和reduce(化简)的⽅式, 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从⽽输出开发者需要的结果。