数据技术所涉及的的数学基础有哪些?
中级会计师 成绩查询
由于⼯作关系,在我的周围存在这两类⼈,⼀是正在学校学习的⼤学⽣,⼆是在IT公司从事研发设计的⼯程师。他们在数学学习和应⽤⽅⾯出现了两个极端。在校⼤学⽣,特别是⼤⼀、⼤⼆的学⽣每学期⼀些诸如数学分析、线性代数、数论之类数学课程,尽管在课堂上可以听到莱布尼茨和⽜顿的纠葛故事、笛卡尔的爱情故事,但是他们往往感到很迷茫,因为不知道所学的数学知识到底有什么⽤。对于IT公司的研发⼈员来说,他们在进⼊⼤数据相关岗位前,总是觉得要先学点数学,但是茫茫的数学世界,哪⾥才是⼤数据技术的尽头?
⼀谈到⼤数据技术,很多⼈⾸先想到的是数学,⼤概是因为数字在数学体系中稳固的位置吧,这也是理所当然的。本⽂对⼤数据技术的数学基础这个问题进⾏⼀些探讨。
我们知道数学的三⼤分⽀,即代数、⼏何与分析,每个分⽀随着研究的发展延伸出来很多⼩分⽀。在这个数学体系中,与⼤数据技术有密切关系的数学基础主要有以下⼏类。特别需要说明的是,由于涉及到的数学知识⽅法较多,这些数学⽅法的具体应⽤可以参阅我的《互联⽹⼤数据处理技术与应⽤》⼀书中关于模型、算法、隐私保护等章节。这⾥只是做个总体概述,可以有个总体了解。如果你对⼤数据开发感兴趣,想系统学习⼤数据的话,可以加⼊⼤数据技术学习交流扣扣:数字5221数字89307,私信管理员即可免费领取开发⼯具以及⼊门学习资料
(1)概率论与数理统计
这部分与⼤数据技术开发的关系⾮常密切,条件概率、独⽴性等基本概念、随机变量及其分布、多维随机变量及其分布、⽅差分析及回归分析、随机过程(特别是Markov)、参数估计、Bayes理论等在⼤数据建模、挖掘中就很重要。⼤数据具有天然的⾼维特征,在⾼维空间中进⾏数据模型的设计分析就需要⼀定的多维随机变量及其分布⽅⾯的基础。Bayes定理更是分类器构建的基础之⼀。除了这些这些基础知识外,条件随机场CRF、隐Markov模型、n-gram等在⼤数据分析中可⽤于对词汇、⽂本的分析,可以⽤于构建预测分类模型。
预备党员预备期多久
当然以概率论为基础的信息论在⼤数据分析中也有⼀定作⽤,⽐如信息增益、互信息等⽤于特征分析的⽅法都是信息论⾥⾯的概念。
广东省事业单位公开招聘人员报名表(2)线性代数
这部分的数学知识与⼤数据技术开发的关系也很密切,矩阵、转置、秩 分块矩阵、向量、正交矩阵、向量空间、特征值与特征向量等在⼤数据建模、分析中也是常⽤的技术⼿段。
广东省教育招生考试院
在互联⽹⼤数据中,许多应⽤场景的分析对象都可以抽象成为矩阵表⽰,⼤量Web页⾯及其关系、微博⽤户及其关系、⽂本集中⽂本与词汇的关系等等都可以⽤矩阵表⽰。⽐如对于Web页⾯及其关系⽤矩阵表⽰时,矩阵元素就代表了页⾯a与另⼀个页⾯b的关系,这种关系可以是指向关系,1表⽰a和b之间有超链接,0表⽰a,b之间没有超链接。著名的PageRank算法就是基于这种矩阵进⾏页⾯重要性的量化,并证明其收敛性。
以矩阵为基础的各种运算,如矩阵分解则是分析对象特征提取的途径,因为矩阵代表了某种变换或映射,因此分解后得到的矩阵就代表了分析对象在新空间中的⼀些新特征。所以,奇异值分解SVD、PCA、NMF、MF等在⼤数据分析中的应⽤是很⼴泛的。
来宾人才网(3)最优化⽅法
模型学习训练是很多分析挖掘模型⽤于求解参数的途径,基本问题是:给定⼀个函数f:A→R,寻⼀个元素a0∈A,使得对于所有A 中的a,f(a0)≤f(a)(最⼩化);或者f(a0)≥f(a)(最⼤化)。优化⽅法取决于函数的形式,从⽬前看,最优化⽅法通常是基于微分、导数的⽅法,例如梯度下降、爬⼭法、最⼩⼆乘法、共轭分布法等。
(4)离散数学
离散数学的重要性就不⾔⽽喻了,它是所有计算机科学分⽀的基础,⾃然也是⼤数据技术的重要基础。这⾥就不展开了。
最后,需要提的是,很多⼈认为⾃⼰数学不好,⼤数据技术开发应⽤也做不好,其实不然。要想清楚⾃⼰在⼤数据开发应⽤中充当什么⾓⾊。参考以下的⼤数据技术研究应⽤的切⼊点,上述数学知识主要体现在数据挖掘与模型层上,这些数学知识和⽅法就需要掌握了。
2010考研英语二真题当然其他层次上,使⽤这些数学⽅法对于改进算法也是⾮常有意义的,例如在数据获取层,可以利⽤概率模型估计爬⾍采集页⾯的价值,从⽽能做出更好的判断。在⼤数据计算与存储层,利⽤矩阵分块计算实现并⾏计算。
如果是其他层次上的⼤数据技术研发,并不需要太多的数学⽅法,只要会码就可以了。