第一章 大数据技术概述
1.1 大数据的概念
近几年来,互联网技术飞速发展,特别是社交网络、物联网、云计算、雾计算技术的兴起与普及,以及各种传感器的广泛应用,数量庞大、种类众多、时效性强的非结构化数据成指数级增长,传统的数据存储、分析技术在实时处理大量的非结构化信息时遇到瓶颈,大数据的概念应运而生。到底什么大数据?大数据的特征是什么?为什么国考没有三不限职位大数据与传统上的数据有哪些不同特性?大数据具有哪些应用价值?大数据通常的处理技术有哪些?针对这些问题,我们将在本教程中逐一探讨。
1.1.1什么是大数据
探讨什么是大数据前,我们先来了解一下什么是数据。
传统意义上的数据是对客观事物的逻辑归纳,是事实或观察的结果,是用于表示客观事物的未经加工的“有根据的数字”。数据源于测量,是对客观世界测量结果的记录。人类一切语言文字、图形图画、音像记录,所有感官可以察觉的事物,只要能被记下来,能够查询到,就
都是数据(data)。当人类进入信息时代之后,数据是一切能输入计算机并被计算机程序处理,具有一定意义的数字、字母、符号和模拟量等的通称。数据可以是连续的值,比如声音、图像,称之为模拟数据;它也可以是离散的,如符号、文字,称之为数数据在现代计算机系统中,所有的数据都是数字的。数字数据安岳县教育局是所有数据中最容易被处理的一种,许多和数据相关的概念,都是立足于数字数据。传统意义上的数据一词,尤其是相对于今天的“大数据”的“小数据”,主要指的就是数字数据,甚至在很多情况下专指统计数数据这些数字数据用来描述某种客观事物的属性。
大数据属于数据范畴,类型上涵盖模拟数据和数字数据,在体量方面具有数据庞大的特征,在数据处理方式,与传统的数据处理方式有所不同。人们在早些年习惯把规模庞大的数据称为“海量数据”,但实际上,大数据(Big Data)这个概念在2008年就已经被提出。2008年,在Google公司成立10周年之际,著名的《自然》杂志专门出版了一期专刊,讨论大数据相关的一系列技术问题,其中就提出了大数据(Big Data)的概念。
随着对大数据越来越多的了解,人们常常会问,究竟怎样的数据才能称作大数据?其实,关于大数据的定义,难以有一个非常准确的说法。给出了一个关于大数据的描述:
大数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集。国内学者给出的定义: 大数据是综合利用新的技术方法对多源、异构、动态的数字资源进行规模化的整合和处理,通过构成新的、复杂的逻辑机构以帮助人们解决具体问题的信息集成
总的来说,大数据是指涉及的数据规模巨大到无法通过人工或计算机,在合理的时间内达到截取、管理、处理并整理成为人们所能解读的形式的信息。
其实,如今“大数据”一词的重点已经不仅在于数据规模的定义,它更多的是代表着计算机以及信息技术发展进入了一个新的时代,代表着大数据处理所需要的新技术和新方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。
大数据技术是新兴的,能够高速捕获、分析、处理大容量多种类型数据,并从中得到相应的技术和架构。大数据处理的关键技术主要包括:数据采集和预处理、数据存储、基础架构、数据分析和挖掘以及大数据应用。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专
业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储技术。
1.1.2大数据产生
计算机和网络已经成为当今社会不可或缺的重要工具,人们在各个领域中都需要计算机的帮助,人们利用计算机的高速度和大容量的特点完成了原来不能完成的任务,并且这种大容量的应用越来越广。从1960年数据库(database)的发明开始,人类社会的数据量产生方式经历了三个阶段。
第一个阶段:运营式系统广泛使用数据库记录运营活动,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。在这个阶段,数据记录在数据库中,数据的产生是被动的,例如,商店每售出一件产品就会在数据库中产生一条相应的销售记录。
第二个阶段:互联网的诞生,用户产生大量的原创内容。博客、微博、、直播平台为代表的新型社交网络的岀现和快速发展,使得用户产生数据的意愿更加强烈。智能手机、平板电脑等新型移动设备的普及,使得人们原创内容更为便捷。在这个阶段数据的产生是主动的。
第三个阶段:传感器的广泛应用,物联网的诞生。极其微小带有处理功能的传感器设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
怎么样查中考成绩让我们从下面几个具体数值来体会下数据量的爆炸式增长。
淘宝网站累计的交易数据量高达100PB;
百度网站目前的总数据量已超过1000PB,每天处理网页的数据达到10PB~100PB;
中国移动公司在某一个省一个月的电话通话记录数据高达 0.5PB~1PB
一个大型城市道路车辆监控数据三年达200亿条、总量120TB。
今天我们正处于第三个阶段。随着互联网、物联网应用深入越来越多的数据被存储和使用。尤其是移动互联网普及,以及今后5G时代的到来,数据增量每年呈现一个几何级数增长。
移动互联网用户使用手机终端会产生大量的多样化数据,如通话记录与内容、浏览网页、搜索词汇、阅读新闻、观赏视频、发表、转发的文章与图片、收发、关注的朋友、消费的支付、购买的商品、位置的移动数据,4G移动网络时代,一个普通的智能手机用户平均每天大约产生200M的数据。移动互联网上的数据特殊性在于它能够锁定一个特定用户,能够获得用户的地理位置信息,另外在于移动互联网上的时空信息等多样化的数据,从而导致移动互联网上数据量会比传统互联网更大,形式也比传统互联网更加丰富,也有更高的价值
“互联网+”和工业4.0概念也为我们添加了更多的数据。工业机床、工业控制设备、RFID阅读器、传感器网络、GPS跟踪设备这些设备每天每时甚至每分每秒都产生新的数据。物联网IOT采集的数据全国会计资格评价网首页更多来自机器和设备为我们提供感知物理世界的接口和手段,遍布于设备上的传感器,如同人体的感知器官,是大数据产生和输入端。
联网数据相比,物联网数据的数据量更大。研究比较这两个数据源,数据量会相差一个量级。全世界人口70多亿,但已经有上百亿级的物联网设备,如果我们将这些设备产生的数据都采集到的话,数量会比来自互联网的数据更大
1.1.3大数据的特征
最早IBM提出了大数据领域的“3V”概念上海市公务员考试报名入口,即大量(Volume)多样化(Variety)快速化(Velocity)通常公务员考试怎么选岗位计算机领域用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征,也有学者提出N个V的特征。
大数据的特征一是数据量巨大(Volume)。据有关统计,截至目前,人类生产的所有印刷材料的数据量大约是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。然而目前很多个人计算机硬盘的容量为TB量级,而很多大企业的数据量已经接近或达到EB量级。
大数据的特征二是数据类型繁多(Variety)。类型的多样性让数据被分为结构化数据非结构化数据。相对于以往为了方便存储以文本为主的结构化数据,大数据主要采用非结构
化数据,主要包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理技术提出了更高要求。
大数据的特征三是价值密度低(Value)。价值密度的高低与数据总量的大小成反比例关系。以监控视频为例,一段1小时的监控视频,有用数据可能仅有一二秒。一般而言,数据规模越大,种类越多,用户得到的信息量越大。获得的知识越多,数据能够发挥的潜在价值越大。但在实际情况中,大数据价值密度低这一特点,使其数据价值往往依赖于较好的数据处理方式和工具。如何通过精密的机器算法更迅速地完成对大量数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
大数据的特征四是处理速度快(Velocity)。该特性包括大数据传输方式和处理方式。传输方式包括批处理传输、实时传输、近似实时传输和流传输等方式。数据处理方式包括数据处理时间和相应的时延。大数据需要以较高的速率被分析、处理、存储和管理,这是大数据区分于传统数据最显著特征之一。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,如何快速准确处理数据将是最关键的步骤。
1.1.5  现状与发展
大数据是信息化发展到一定阶段的产物。随着信息技术和人类生产生活深度融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会进步、国家治理、人民生活都产生了重大影响。大数据发展日新月异,政府推动实施国家大数据战略,数字基础设施数据资源整合和开放共享保障数据安全等方面着力推进。
综观世界,我国大数据发展具有独特优势。虽然很多国家把经济数字化作为实现创新发展的重要动能,在前沿技术研发、数据开放共享、隐私安全保护、人才培养等方面进行前瞻性布局,一些发达国家还相继出台了大数据发展规划,但没有一个国家能像中国这样将发展大数据上升为国家战略,并持续深入推动。而且,我国在数据资源上具有规模化和多样化优势,在互联网和移动互联网数据应用上具有后发优势,涌现出一批基于大数据应用的创新企业。所有这些都表明,我国运用大数据推动创新发展具备比较好的基础和条件,也说明国家实施大数据战略的极端重要性和正确性。目前,大数据发展整体上仍处于起步阶段。虽然快速发展的格局基本形成,但在数据开放共享、核心技术突破、以大数据驱动发展等方面都面临重重挑战,这也是制约我国大数据发展的主要因素。
近年来,一些省市把大数据作为弯道取直、后发赶超的重要战略,相继获批创建国家大数据综合试验区、大数据产业发展集聚区等,大数据产业已是风生水起。随着大数据产业的进一步落地,将有更多国家部门出台具体政策,推动大数据行业的发展。在国家政策持续推动下,大数据产业落地进程加快,产业价值被进一步发掘。2017年我国大数据市场规模已达358亿元,年增速达到47.3%,规模已是2012年的35亿元的10倍。预计2020年,我国大数据市场规模将达到731亿元。