数据分析建模思路技巧和算法的特征
 零售银⾏为了给客户提供更加优质的服务,需要通过分析银⾏系统本⾝数据库所保留的客户资料信息,对客户进⾏分类管理。
  近年来,⼤数据已成为科技界和企业界关注的热点,越来越多的企业和研究者正在关注⼤数据的应⽤。⼤数据的分析与挖掘技术在科学界正在如⽕如荼的展开,各种⼤数据的新算法被开发研究出来,例如近年来发展⽐较完善的⼀种数据分析挖掘算法⽀持向量机。
  与此同时,⼤数据分析在商业中的运⽤受到⼈们的追捧,各种⼤数据在商业中成功运⽤的案例层出不穷,⽐如美国⼤型零售商target公司的⼴告精准推送。本⽂将对⼤数据分析技术以及⼤数据分析技术在零售银⾏⾏业的作⽤进⾏⼀番探讨。
什么是⼤数据哪些属于事业单位范围
  2011年,麦肯锡在题为《海量数据,创新、竞争和提⾼⽣成率的下⼀个新领域》的研究报告中⾸次提出⼤数据的概念。报告认为数据已经渗透到每⼀个⾏业和业务职能领域,数据中蕴含着巨⼤的价值,这些价值将导致数据成为重要的⽣产因素。2012年《纽约时报》的⼀篇专栏中写到,“⼤数据”时代已经降临,在商业、经济及其他领域中,最终决策将⽇益基于数据和分析⽽作出,⽽并⾮基于经验和直觉。20
12年3⽉,美国奥巴马政府宣布投资2亿美元启动“⼤数据研究和发展计划”,这是继1993年美国宣布“信息⾼速公路”计划后的⼜⼀次重⼤科技发展部署。美国政府认为⼤数据是“未来的新⽯油”,将“⼤数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。
  进⼊21世纪,互联⽹的兴起促成了数据量的⼤规模增长。互联⽹时代,⼏乎全民都在制造数据,与此同时,数据的形成也极其丰富。⼀⽅⾯,既有社交⽹络、多媒体、协同创造、虚拟服务等应⽤所主动产⽣的数据;另⼀⽅⾯,⼜有搜索引擎、⽹页浏览过程中被记录、被收集的数据。该阶段数据的特点是⽤户原创、主动、交互。
  根据国际数据公司(IDC)的研究报告,2011年全球被创建和被复制的数据总量为1.8ZB(数据存储单位,泽字节,等于 1024艾字节或270个字节),且增长趋势遵循新摩尔定律,预计到2020年,全球数据量⼤约每两年翻⼀番,全球将拥有35ZB的数据量。正是由于信息技术的发展,⼤数据才能⽣成和发展。⼤数据技术正是从海量的、多样化的数据中,快速获得有价值信息的能⼒。
  ⼤数据指的是所涉及的数据量规模巨⼤到⽆法通过⼈⼯,在合理时间内达到截取、管理、处理、整理成为⼈类所能解读的信息。在维克托? 迈尔-舍恩伯格及肯尼斯?库克耶编写的《⼤数据时代》中,⼤数据分析是指不⽤随机分析抽样调查的⽅法,⽽采⽤对所有数据进⾏分析的⽅法。
  基于⽬前对⼤数据的认识,通常认为⼤数据具备了4V特点,即Volume(⼤量)、Variety(多样)、Velocit
y(⾼速)、Value(价值)。这四个特点从四个⽅⾯描述了⼤数据分析技术:第⼀,数据体量巨⼤。从TB级别到PB级别,甚⾄跃升⾄EB乃⾄ZB级别;第⼆,数据类型多样。包括⽹络⽂本、⽇志、视频、图⽚、地理位置信息等各种结构化和⾮结构化的数据都有,⼀切信息皆为数据。第三,处理速度快。利⽤各种⼤数据分析⼯具,⽐如hadoop和SPSS,可从各种类型的数据中快速获得⾼价值的信息,这⼀点和传统的数据分析技术有着本质的区别。第四,只要合理利⽤数据并对其进⾏正确、准确的分析,挖掘出数据内部隐藏的相关关系将会带来很⾼的价值回报。
  与传统的逻辑推理研究不同,⼤数据研究是对数量巨⼤的数据做统计性的搜索、⽐较、聚类和分类等分析归纳。⼤数据分析⽐较关注数据的相关性或称关联性,所谓“相关性”是指两个或两个以上变量的取值之间存在着某种规律。“相关分析”的⽬的是出数据集⾥隐藏的相互关系⽹(关联⽹)。因此⼤数据是侧重出相关关系⽽不是出因果关系。也许正是由于⼤数据分析侧重于寻相关关系,才促使⼤数据分析技术在商业领域⼴泛应⽤。商业的运⽤在于盈利,因此只要从数据挖掘中发现某种因素与增加盈利有较强的关联性,然后全⾯开发该相关因素就⾏。教师资格证考试结果
⼤数据分析建模的基本思路技巧
  有了⼤量数据之后,下⼀步就是分析这些数据,期望通过合适的数据分析挖掘技术建⽴模型到蕴藏在数据下⾯的客观规律。⼤数据分析技术经过这么多年的发展,已经形成了⼀些分析建模的基本思
路。CRISP-DM(即“跨⾏业数据挖掘标准流程”的缩写)是⼀种业界认可的⽤于指导⼤数据分析挖掘⼯作的⽅法。
  CRISP-DM认为在⼤数据分析中存在⼀个⼤数据分析挖掘⽣命周期模型。在这个⽣命周期模型中存在着商业理解、数据理解、数据准备、建⽴模型、模型评估和结果部署这六个阶段。图1中展⽰了这六个阶段的关系,其中箭头的多少表⽰各个阶段间依赖关系的使⽤频率和重要程度,每个阶段之间并不⼀定要严格遵守顺序。实际上,⼤多数项⽬都会根据需要在这些不同的阶段之间来回移动。
  商业理解通常是指理解业务的实际类型,业务上的实际问题并且尝试尽可能多地了解数据挖掘的业务⽬标。数据理解是指数据理解阶段包含深⼊了解可⽤于挖掘的数据,此过程包括初始数据的收集,初始数据的描述以及数据质量的验证。数据准备是数据挖掘最重要的阶段之⼀,通常需要花费⼤量的时间。据估算,实际的数据准备⼯作通常占50-70%的项⽬时间和⼯作量。
  数据准备通常包含以下任务:合并数据集和记录、选择数据⼦集样本、汇总记录、导出新的属性、排序数据以便建模、删除或替换空⽩值或缺失值、分为训练数据集和测试数据集等。经过数据准备,下⼀阶段就是建⽴模型。建模时通常会执⾏多次迭代,选择合适的模型算法,运⾏多个可能的模型,然后再对这些参数进⾏微调以便对模型进⾏优化,最终选择出⼀个最佳的模型。在模型评估阶段,需要对项⽬结果是否达到业务成功标准进⾏评估。此步骤的前提条件是对声明的业务⽬标有清晰的了解,
因此在前期的商业理解越发显得重要。模型评估完成之后就进⼊到结果部署阶段,在该阶段就是将前期选择出来的最佳模型应⽤到实际业务中去,并得到最终报告。
  ⼤数据分析通过预测未来趋势及⾏为,做出知识的决策。⼤数据分析挖掘的主要⽬标功能有以下⼏个:
  第⼀,⾃动预测趋势和⾏为。数据挖掘⾃动在⼤型数据库中寻预测性信息,以往需要进⾏⼤量⼿⼯分析的问题如今可以迅速直接由数据本⾝得出结论。⽐如在GOOGLE流感分析案例中预测流感爆发的时间和地点。
  第⼆,关联分析。数据关联是数据库中存在的⼀类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析旨在出具有强相关关系的⼏个属性。典型案例是啤酒和尿布的关联分析,关联分析经常⽤在电⼦商务的产品推荐中。
  第三,聚类。数据库中的⼀些相类似的记录可以划归到⼀起,即聚类。聚类常常帮助⼈们对事物进⾏再认识。在社交⽹络分析中经常⽤到聚类技术。
  ⼤数据分析技术经过这⼏年的发展,已经形成了⼀些⽐较成熟稳定的模型算法。常见的模型算法有关联规则分析(Apriori)、决策树、神经⽹络、K-MEANS聚类、⽀持向量机、多元线性回归、⼴义线性
回归、贝叶斯⽹络、Cox以及K近邻等。这些算法模型有的适合预测趋势和⾏为,有的适合关联分析,有的适合聚类分析;每种模型算法都有各⾃的优劣性,我们可以针对不同的场景选择合适的算法模型进⾏⼤数据分析挖掘。⼀些常⽤的模型算法的优劣性和适⽤场合如表1所⽰:
表1:⼤数据常⽤模型算法的特征分析
  模型算法优点缺点应⽤场合
  关联规则分析(Apriori)算法容易理解,能够⽤简单的if-then规则描述数据之间的完备关系;得出的规则具有可读性;能处理连续和离散的数据数据间可能不存在强规则;由于要查整个数据库中的所有可能规则,可能会出现组合爆炸问题数据形式规范,分组容易;零售业和时间序列分析,电⼦商务中的产品推介
卢龙教育网  决策树最容易理解,当求解基于多个复杂属性的特定⽬标值时其性能较佳,可以产⽣相互独⽴的规则预测连续属性值时性能较差;不能分析和时间有关的属性变量⽤于进⾏分类的场合;要求模型具有较强的解释性的时候
  神经⽹络通⽤性强,对⾮线性、有噪⾳的复杂数据分析效果良好;能处理规模较⼤的数据库,能预测连续数据,分类或聚类离散数据;能处理有噪⾳或属性值有缺失的数据⽆法直观解释得到的规则,
结果较难解释;算法收敛得太早,容易出现局部最优解或者过拟合现象⽤于进⾏分类预测的场合,并且变量之间线性关系难以解释的情况下
  聚类(K-MEANS)应⽤简单,⽆需先验知识,能处理分类型数据,数字型数据和字符型数据聚类的个数需要⼈为事先定好,难以选择适当的距离函数和属性权值对数据按照属性进⾏归类,发现离数据和不符合预测模型的数据
  ⽀持向量机对数据适应性⽐较强,鲁棒性强经典的算法只能分为两类,分多类⽐较⿇烦⽤于进⾏分类预测的场合,在神经⽹络不好⽤的情况下
  零售银⾏中的⼤数据类型
  在现代经济⽣活中,个⼈和家庭⽣活与银⾏零售业务联系密切,⽐如投资理财、电⼦商务、移动⽀付、家居⽣活以及外出旅游⽆不与银⾏零售业务紧密相连。正因为零售银⾏的客户庞⼤、分布⼴泛、业务量⼤且复杂,因此零售银⾏对业务的管理、风险的控制、客户的营销都有不同的要求。并且随着互联⽹⾦融的发展,银⾏零售业务越来越受到其他⾮银机构的挑战,零售银⾏对其业务的稳固及发展⾯临着新的压⼒并提出了新的要求。要应对这种挑战,不断扩展业务,创造新的利润空间,就必须对市场需求进⾏周密的调查研究,并且在调查研究的基础上发现价值点,⽽这些正好是⼤数据分析的⽤武之地。
  零售银⾏经过了这么多年的发展,尤其是在最近⼏年互联⽹和移动互联⽹快速发展的前提下,本⾝已经积累了⼤量的数据,这些数据⼏乎涵盖了市场和客户的各个⽅⾯。零售银⾏的这些数据主要包括以下⼏个⽅⾯:
  第⼀,现有客户的属性数据。客户的属性数据包括客户的性别、年龄、收⼊以及客户的职业。这些数据是客户在开户或者购买产品时留下来的属性数据,通过这⼏个属性基本上可以描述客户的⼤概情况,⽐如收⼊⽔平、资产状况等。
  第⼆,客户的账户信息。客户的账户信息⾥包含了客户的账户余额、账户类型以及账户状态。客户的账户信息记录了客户当前的⼀种资产状态,对零售银⾏分析客户以及挖掘客户起到了重要作⽤。合肥人才网最新招聘信息
  第三,客户的交易信息。客户的交易信息⾥包含了客户交易的⽇期和时间,交易的⾦额以及交易的类型。通过这些我们可以知道客户交易的频度及总额,由此可以推断出客户的交易喜好以及资产能⼒。
  第四,客户的渠道信息。渠道信息是指客户是偏好去银⾏柜台办理业务,还是通过互联⽹客户端或者移动互联⽹客户端来办理业务。客户的渠道信息对客户的管理及拓展⾄关重要。
  第五,客户的⾏为信息。在互联⽹时代,各个零售银⾏都有⽹银⽇志和⼿机银⾏⽇志,这些⽇志记
录了客户办理业务的⾏为信息。相对于前⼏个⽅⾯的数据信息,⽹银⽇志和⼿机银⾏⽇志信息是⼀种⾮结构化的数据信息。
  对⽐以上数据来源,可以发现零售银⾏的数据信息主要包括以下⼏类:客户的属性、交易习惯、渠道偏好以及⾏为信息。这些数据信息储存于零售银⾏的⽹银系统、客户管理系统、电⼦⽀付平台、ECIF系统、核⼼银⾏系统或者其它系统⾥⾯。这些系统对数据的保存及分析提供了极⼤的便利性和准确性。
⼤数据分析对零售银⾏的商业价值
  近⼏年来,⼤数据分析在各个相关领域飞速发展,零售银⾏也不例外。鉴于零售银⾏的业务类型以及零售银⾏的数据类型,⼤数据分析在零售银⾏的商业价值主要存在于以下⼏个⽅⾯。
  第⼀,客户的精细分类和档案管理。零售银⾏为了给客户提供更加优质的服务,需要通过分析银⾏系统本⾝数据库所保留的客户资料信息,对客户进⾏分类管理。
  相关统计表明,只有⼤约20%的客户能给银⾏带来最⼤收益,因此到这20%的优质客户就成为零售银⾏的⼀⼤主要⽬标。⽽根据客户的数据信息资料出客户背后的社会、经济、消费特征,进⽽可以推断出客户的消费能⼒、消费⽔平和消费习惯,并可以计算出各个客户对银⾏的贡献率,最终根据
这些特征对客户进⾏精细化的分类及管理。通过这些分类和管理能给零售银⾏带来最⼤的收益,⽽这些操作只能通过⼤数据分析才能实现。
  第⼆,客户流失的预防和精准营销。从⾏业经验来看,发展⼀个新客户的成本远远⼤于维持⼀个原有客户的成本,尤其是优质客户。如今,银⾏零售业务的竞争⾮常激烈,市场区域饱和,因此维持原有客户防⽌客户流失显得愈发重要。如何保留原有的客户并且不断为这些客户提供优质的增值服务是零售银⾏业⾯临的⼀项重要挑战和机遇。⽬前⼤数据分析可以帮助零售银⾏精细的定位和划分客户,从⽽出具有潜在流失可能性的现有客户。通过对数据进⾏分析,挖掘和整理出客户流失的具体原因,客户不满意哪些产品和服务,客户消费⾏为的定位等等。通过⼤数据分析可以对不同的客户提出具有强烈吸引⼒的个性化营销⽅案,进⽽帮助零售银⾏预防客户流失进⾏精准营销。
  第三,产品的分析和管理。零售银⾏有众多的产品,这些产品适合不同的客户体,如何对产品进⾏分析、管理和优化也是零售银⾏⾯临的⼀个难题。以往的产品分析和管理只是单纯的利⽤统计分析来对产品的当前状态进⾏描述,缺少的是深⼊的挖掘。⽽在如今的⼤数据时代,通过⼤数据分析不仅可以对产品的覆盖⼈、产品的盈利能⼒、⽤户的反应、⽤户的留存率、产品的营销推⼴、产品的优化升级进⾏全⽅位的挖掘,还可以在此基础上到新的价值增长点。通过⼤数据分析,零售银⾏对产品的把控能⼒必将得到更⼤的提⾼。
红河人才网登录  第四,风险控制和管理。信⽤卡的使⽤就是零售银⾏⾯临的风险之⼀,客户恶意透⽀信⽤卡,逾期不还款这些都是银⾏⾯临的潜在风险。因此,如何提前识别有风险的客户,如何预防客户的恶意透⽀以及如何进⾏风险管控,这些都是零售银⾏⾯临的难题。在⼤数据分析⼤规模应⽤之前,银⾏只是简单的通过⽤户的背景资料来进⾏预防,这种⽅法既被动⼜⽆效。⽽如今,在⼤数据的帮助下,银⾏可以从客户的历史数据中分析出客户的消费⾏为习惯,⼀旦客户出现⾮常规的消费⾏为,即可认为风险指数超标从⽽中⽌交易,进⽽有效地防⽌风险的出现。
  另外,通过⼤数据分析也可对⽤户的信⽤等级进⾏评估,对信⽤评估得分低的客户可以重点进⾏风险管理和控制;对信⽤评估得分⾼的客户可以进⼀步挖掘出这部分客户的消费潜⼒进⽽提⾼零售银⾏的业绩。
昭通市人事人才网  第五,银⾏经营状况分析。⼤数据分析不仅可以对零售银⾏的客户进⾏精准定位、营销和风险管理,也可以对零售银⾏的总体经营状况进⾏深度分析。通过数据挖掘及时了解营业状况、资⾦情况、利润情况等重要信息。同时,还可以结合历史同⼀时间的经营状况数据,挖掘出现阶段经营状况的问题以及改进的策略,进⽽提出在该条件下最⼤收益的经营⽅式。
  以上五点只是⼤数据分析对零售银⾏商业价值存在的主要⽅⾯,也是⼤数据分析对零售银⾏影响最⼤的⼏个层⾯。随着⼤数据分析在零售银⾏业的应⽤与发展,⼤数据分析对零售银⾏其它业务的商业价值必将得到更⼤的显现。
  总⽽⾔之,⼤数据是创新、竞争和提⾼⽣产率的新领域,蕴含着许多市场机会与利润空间;⼤数据所蕴藏的巨⼤价值必将引起包括零售银⾏在内的诸多⾏业的经营创新和企业管理的重⼤变⾰。今后,⼤数据分析对零售银⾏的影响会越来越⼤,零售银⾏业在⼤数据的推动下必将迎来⼀个新的增长机遇。
  说起⼤数据,可能很多⼈都知道这是未来互联⽹时代发展的⼀个⼤发向。但是⼤数据的兴起却不是因为互联⽹,也不是因为移动互联⽹,⽽是因为万物互联。
  互联⽹可以说是信息1.0时代,⽽移动互联⽹则是信息1.5时代,物联⽹呢,则是信息2.0时代。在这个万物互联的时代,它将是⼀个信息爆炸的时代,⼤数据将会在这个时代掀起⼀个突飞猛进。
  ⽬前,各种智能硬件、联⽹设备、传感器如⾬后春笋般地冒出来了。智能家居、智能可穿戴、智能汽车、智能⼩区、智能城市等很快就将在全球范围流⾏起来。⽽在这个万物联⽹的背后,数据的分析、处理、识别、预测等就变得尤为重要。
  眼下阿⾥云在⾦融云、政务云、企业云服务⽅⾯已经跑在前⾯,⽽百度云则在个⼈云服务、物联⽹数据⽅⾯领先,腾讯呢,⾃然在这⽅⾯要略显落后了。不过进⼊到今年以来,腾讯云正在加速追赶百度和阿⾥。
  不过在物联⽹时代,谁能真正玩转⼤数据,⽬前不管是亚马逊、还是⾕歌等科技巨头,⽬前都没有谁敢真正说这个领域将会是⾃⼰说了算。⽽第⼀个尝到⼤数据甜⾷的⼜会是谁,我们拭⽬以待。