浙江人事考试网上报名⼤数据处理技术简介
第⼀章:⼤数据处理技术简介
前⾔:关于⼤数据与云计算的这⼏篇⽂章是我⼀天中从教材⾥⼿打整理的考试资料,另外其中也附上了我个⼈的理解(有⼀定的理解很重要),记也作我以后翻看的笔记。
1.提升单处理器计算机系统计算速度的常⽤技术⼿段有:
(1).提升计算机处理器字长———>CPU寻址位数越多,计算能⼒越强
(2).提⾼处理器芯⽚集成度———>增加芯⽚中晶体管的数量
鄂尔多斯人事考试网
(3).提升处理器的主频—————>主频越⾼,每秒的运⾏次数就越多
(4).改进处理器微架构—————>改进处理器策略
2.按并⾏计算系统类型,可将并⾏计算分为以下类型:
(1).多核并⾏计算系统—————>这⾥即为多核CPU并⾏计算
(2).对称多处理系统——————>这⾥即为多个CPU并⾏计算
(3).⼤规模并⾏处理系统————>以专⽤内联⽹连接⼀组处理器形成的⼀种 并⾏计算系统
(4).集——>以⽹络连接的⼀组普通商⽤计算机构成的并⾏计算系统
(5).⽹格——>⽤⽹络连接远距离分布的⼀组异构计算机构成的并⾏计算系统
(PS:这⾥我不知道说什么…我看了看博客⾥分布式计算、并⾏计算及集、⽹格、云计算的区别。想了想,还是暂时先记忆吧)
3.按应⽤的计算特征,可将并⾏计算分为以下类型:
(1).数据密集型并⾏计算:即数据量极⼤,但计算量相对简单的并⾏计算。
(2).计算密集型并⾏计算:即数据量相对不⼤,但计算量较为复杂的并⾏计算。
(3).数据密集与计算密集混合型并⾏计算:具备数据密集和计算密集双重特征的并⾏计算,如3D电影渲染等。
4.并⾏计算的主要技术问题:
(1).多处理器/多节点⽹络互连技术
(2).存储访问体系结构
福建省安全教育平台登录入口
(3).分布式数据与⽂件管理
(4).并⾏计算的任务划分和算法设计
(5).并⾏程序设计模型和语⾔
(6).并⾏计算软件框架设计和实现
(7).数据访问和通信控制
(8).可靠性与容错性技术
(9).并⾏计算性能分析与评估
(PS:说实话,我不知道考这个题有什么意义,算是⼀种并⾏计算实现过程中的关键点,可是记这个完全成了记忆负担)
5.关于单位换算:
1KB=1024B 1MB=1024KB 1GB=1024MB 1TB=1024GB
1PB=1024TB 1EB=1024PB 1ZB=1024EB 1YB=1024ZB
(即B,KB,MB,GB,TB,PB,EB,ZB,YB)
6.⼤数据具有五个主要的技术特征(5V特征):
(1).Volume(⼤体量):数据量极其庞⼤
(2).Variety(多样性):数据格式,形态极其丰富
(3).Velocity(时效性):数据需要实时处理
(4).Veracity(准确性):处理的结果保证⼀定的准确性
(5).Value(⼤价值):数据隐含着巨⼤的深度价值
7.(1).从数据结构特征看,⼤数据分为:结构化/⾮结构化/半结构化数据
(2).从数据处理⽅式看,⼤数据分为:批处理/流式计算
(3).从数据处理类型看,⼤数据分为:传统的查询分析计算/复杂数据挖掘计算
(4).从数据响应性能看,⼤数据分为:实时/准实时/⾮实时计算
(5).从数据关系⾓度看,⼤数据分为:简单关系数据/复杂关系数据
(6).从迭代计算⾓度看:数据处理中许多问题需要⼤量迭代计算,如机器学习
(7).从并⾏计算体系结构特征⾓度看:由于需要⽀持⼤规模数据的存储和计算,⽬前⼤多数⼤数据处理都使⽤基于集的分布式存储与并⾏计算体系结构。
8.⼤数据研究的基本途径:
(1).寻新算法降低计算复杂度 (因为计算量⼤)
(2).寻和采⽤降低数据尺度的算法 (精简数据规模)
(3).分⽽治之的并⾏化处理 (分布式存储和并⾏计算来处理⼤数据)
9.关于19页的表格,不记也罢,记住以下这⼀段就⾏
⼤数据查询分析计算的典型系统包括Hadoop下的HBase和Hive;Facebook公司开发的Cassandra;Cloudera公司的实时查询引擎Impala;
此外为了实现更⾼性能的数据查询分析,还出现了不少基于内存的分布式数据存储管理和查询系统,如Apache Spark下的数据仓库Shark,SAP公司的Hana,开源的Redis等。
10.MapReduce的由来
MapReduce最早是由Google公司提出来的,Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中⼤规模⽹页数据的并⾏化处理。之后解决这个问题后,MapReduce普遍应⽤于很多⼤规模数据的计算问题。
另:开源项⽬Lucene(搜索索引程序库)和Nutch(搜索引擎)的创始⼈是DougCutting
11.⾯向⼤规模数据处理,MapReduce有以下三个层⾯上的基本设计思想:
(1).对付⼤数据并⾏处理:分⽽治之
护士面试常见问题
(2).上升到抽象模型:Map与Redeuce
(3).上升到构架:以统⼀的构架为程序员隐藏系统层细节
12.需要了解Hadoop的产⽣历史
春季高考山东学校名单分数
Hadoop系统最初的源头来⾃于Apache Lucene项⽬下的搜索引擎⼦项⽬Nutch,该项⽬的负责⼈是Doug Cutting。他受Google公司MapReduce的启发,尝试模仿Google MapReduce框架的设计思路,⽤Java设计实现出了⼀套新的MapReduce并⾏处理软件系统,并将其与Nutch分布式⽂件系统NDFS相结合,⽤以⽀持Nutch搜索引擎的数据处理。
2006年,他们把NDFS和MapReduce从Nutch项⽬中分离出来,成为⼀套独⽴的⼤规模数据处理软件系统,并使⽤Doug Cutting⼩⼉⼦当时呀呀学语称呼⾃⼰的玩具⼩象的名字“Hadoop”命名了这个系统。
2023年辽宁省省考报名时间及条件2008年他们把Hadoop贡献出来,成为Apache最⼤的⼀个开源项⽬,并逐步发展成熟。成为了⼀个包含
HDFS,MapReduce,HBase,Hive,Zookeeper等⼀系列相关⼦项⽬的⼤数据处理平台和⽣态系统。
(PS:这三段看两遍知道⼤概就够了)
13.以下这张图算是重点:
分析此张图:从软件⾓度看,Hadoop系统包括分布式存储和并⾏计算两个部分。分布式存储架构上,分布式⽂件系统称为HDFS。其中,负责控制和管理整个分布式⽂件系统的主控节点为NameNode,⽽每个具体负责数据存储的从节点称为DataNode。
同样的,并⾏化计算框架MapReduce中,负责管理和调度整个集进⾏计算的主控节点称为JobTracker,⽽每个负责具体的数据计算的从节点成为TaskTracker
另外,Hadoop系统中的其他⼦系统,例如HBase,Hive等,将建⽴在上述HDFS分布式存储系统和MapReduce并⾏化计算框架之上。
14.此图也很重要(可记忆掌握,有些意义)
15.第⼆章是hadoop系统的安装与操作管理,只需知道hadoop的三种安装⽅式:
单机⽅式,单机伪分布式,集分布模式。