/陈志强 雷欢 段磊 李文 刘梦
基于决策树模型考研上线因素分析
内容摘要    在知识越来越成为一种付费产品的今天,国家对于高层次人才的需求急剧增长,考研作为成就高层次人才的一条重要途径,已成为众多大学毕业生的选择。但是由于考研的特殊性、复杂性以及考研学子的主观性等诸多因素,考研上线率并未与报考人数的急速增长相匹配。
本研究以考生的综合素质、考前准备、备考过程和考研结果四个维度为框架,采用决策树C5.0算法,对考生上线因素进行权重分析,通过决策树算法筛选出对上线产生显著影响的因素,并据此进行预测分析,经过验证,两种方法均可有效地分类预测考生是否上线。
关键词    考研;上线因素;决策树
随着知识经济时代的到来以及科教兴国、人才强国战略的深入实施,我国对高层次人才的需求越来越大,近几年,高校研究生招生规模逐年扩大,越来越多的本科大学生加入到考研队伍中。2020年,研究
生报考人数达到了341万人,创造了历史新高,但录取率并未随之显著提高,上线情况也不容乐观,将近四分之三的人在此次考研中落榜。如何提高考研上线率、录取率成为各大院校、机构的热点话题。但由于考研的特殊性、复杂性,加上传统方法研究的局限性,相关理论文献很难有更深层次的突破。
本课题以统计学中决策树模型对考生是否上线进行预测分析。将收集的问卷数据进行基础预处理、逻辑排错,以优化模型,保证模型的正确性。在已知各种情况发生的概率下,取其期望值大于零的概率,评价其上线的概率,以此作为预测模型。在大数据的背景下,基于考生的自身素质和学习能力等数据信息来对其上线进行预测,为定制精准化的考研方案提供理论依据和数据支撑。
1  研究对象与方法
1.1  研究对象
以成都大学各学院下的2015、2016级考研学子作为本课题研究对象,本调查所涉及信息均以获得当事人授权同意。
1.2  研究方法
1.2.1  问卷调查法
在大量文献的查阅基础上,将影响考研上线因素分为四个维度:学习情况、备考情况、考试当天情况和初试结果,以此来设计问卷。问卷共分为四个部分:第一部分是综合素质,包括英语、政治类学科平均成绩、数学类学科平均成绩和学业成绩排名;第二部分是考研过程,包括考研目标、正式备考时间、有无复习计划、计划执行情况、考研决心、每日备考时长、备考自律情况、备考期间心态、是否有研友、身边考研氛围如何;第三部分是考前准备,父母对考研的支持度、所在学院是否支持考研、考试当天身体状况、考试当天心态;第四部分是考研结果,包括是否为跨专业考试、参加研究生考试次数、此次考研是否上国家线和一些基本信息,共计24个问题。此次共收回问卷500份,其中合格有效问卷440份,问卷有效率88%。
1.2.2  统计分析法
模型软件采用ibm spss modeler18.0,在α=0.05的显著性水平下,p<α时认为该项指标有显著的统计学意义;决策树模型采用C5算法。
1.3  数据预处理
此次共收到440份有效数据,在问卷发放之前,已学院专业领域老师进行定性的评价,对问卷前测并根据结果进行选项的修正,提高问卷内容的有效度。根据SPSSSAU信度分析得到α为0.86,该系数表明数据真实性较高,调查问卷信度处于较高水平,问卷收集的数据具有分析价值。运用EpiD ata3.1建
2020考研出成绩时间立数据库录入数据,采用双人录入,并对数据逻辑性和一致性进行核查。
2  模型建立与结果分析
2.1  决策树模型
通过ibm spss modeler18.0构建决策树C5模型,共导入数据440条,通过类型节点,在输入变量中将大学期间数学成绩、大学期间政治成绩、每日平均学习时长设为连续性变量,未参加数学、政治考试的设置为0,其余因素设置为分类变量,是否上国家线作为目标角,设置十折交叉验证,同时为了防止决策树过度拟合,对决策树模型进行了预剪枝处理:修剪严重性为80,每个子分支最小记录数设置为4,最终得出以下模型:
每日学习时长是优先级别最高的节点,以此对考生进行第一次分类,每日学习时长大于7.9个小时的考生中,有107名考生上线,占比70.86%,备考时的自律情况也是在此分支下极为重要的预测因素,自律情况很强、强的考生上线人数为86人,占比82.692%。此外,学习能力将进一步对自律情况一般的考生是否上线产生影响,学习能力强的其上线的可能性也就越大。而在每日时长低于或等于7.9小时的体中,大学期间数学平均分数以79分为分界点,对于高于79分的考生而言,自律情况越强的,上线的几率也就越大,反之,而自律情况一般的,就看其大学期间政治平均分数,若大于70分,则上线的概率为100%,低于70分,上线的概率则为12.5%;大学期间数学分数低于79分的考生中,英语情况就
显得格外重要,英语过
231
了专八的考生,上线率达到了87.5%,而未参加、未过英语等级考试的178名考生中,150人未上线,占比84.270%。如果英语过了六级,那么备考期间的心态就会进一步影响是否上线,心态好的考生中,上线率达到了84.211%。
2.2  模型评价
在所分析的变量中,以下因素具有重要的预测作用:每日学习时长、英语情况、数学分数、备考期间自律情况、政治分数、学习能力、备考期间的心态。在241名上线考生中,模型正确预测了208名上线的考生,预测准确率为86.31%。在199名未上线的考生中,模型正确预测了159名考生,预测正确率为80.00%。受试者操作特征曲线(Receiver Operating Characteristic)面积AUC(Area Under curre)为0.846,模型检测真实度高,具有应用价值。
在统计学中,通常使用Gini系数 或者熵来度量随机变量的不确定度的大小,在本模型当中,评估度量Gini系数为0.692,高于0.5,数据的不确定性略高。置信度值范围为0.708-1.0,平均正确性为0.836,始终高于0.889(观测值的1.59%),平均不正确性为0.824,始终低于0.708(观测值的0%),100%以上的准确性为0.889,2.0以上的折叠正确性为0.875(观测值的93.75%)。
3  缺陷之处
由于考研上线的复杂性和主观性,本课题仅选取了较为普遍的因素作为输入变量,部分间接相关因素例如:考研资讯获取程度、经济条件、考生的价值追求等并未纳入,模型的全面性可能会受到影响,探索和对比不够严谨;在该模型测试自变量当中,主观因素较多,而主观因素往往不可具体测量,很难让考研体对自己进行充分的划分,从而影响模型最终输出是否上线结果精度的误差;样本量不足,决策树C5模型需要较大的样本量对模型进行检验,逐层次进行分析。所以该课题只能从统计学的角度去分析因变量(上线结果)和自变量的关系,仅能提供一定的参考和依据,对于最终结果的判断需要实践验证,并且,考研上线并非最终考研结果,故本课题仍有较大的提升空间。
4  结论
考研已成为多数大学生毕业的重要选择之一,此次研究对于帮助考研学子提高上线率,助力大学生成长成才具有前瞻性的意义。本研究以考生的综合素质、考前准备、备考过程、考研结果四个维度为框架,采用决策树C5.0算法对考生上线因素进行权重分析,筛选出对上线产生显著影响的因素,并据此进行预测分析,经过验证,决策树模型可有效地分类预测考生是否上线。决策树分析发现以下七个因素会对考研上线产生显著的预测作用:每日学习时长、英语情况、数学分数、备考期间自律情况、政治分数、学习能力以及备考期间心态。学的过程离不开自律,自律也是该模型当中所认可的重要预测
因素,可见学习和自律二者有着密切的联系,自律的养成是一个长期的过程,并非一朝一夕,考研过程就是锻炼自律的过程,是磨炼自己的过程,这也是研究生教育当中必备的素质。除此之外,大学期间扎实打好英语、数学、政治的基础也尤为重要,而这些科目的学习也需要时间的积累。对于考研学子来说,考研是另一次高考,是对自身综合素质、能力的再一次检验,所以,要时刻保持良好的心态,清晰地认识自己、认识考研的本质。
本研究利用统计学众多领域中广泛运用的决策树模型,对数据进行深入挖掘,以树形图的模式展示了上线与各因素之间的相互作用关系,探究影响考研上线的主要影响因素,为考研学子提供可靠的数据参考,对院校、考研机构的考研指导也具有重要意义。
【参考文献】
[1] 杨明,张载鸿.决策树学习算法ID3的研究[J].微机发展,2002(05):6-9.
[2] QuinlanJR.Inductionofdecisiontrees[J].MachineLearning, 1986,(4):81-106.
[3] 姚萱,赵延芳,杨红,古丽巴哈尔·卡德尔,邓峰.基于定序logistics回归模型下乌鲁木齐市居民社区卫生服务利用影响因素分析[J].中国卫生事业管理,2016,33(06):413-415+432.
[4] 孙小素,尹思源.个人因素对考研结果的影响分析--基于logistic回归[J].山东工商学院学报,2019,33(0
4):45-53.
[5] 丛康林,李西灿,董超,常小燕.大学生考研影响因素调查分析[J].产业与科技论坛,2019,18(13):139-140.
[6] 刘天军.大学生考研动机及影响因素研究--基于陕西省6所高校抽样调查的实证分析[J].高等财经教育研究,2013,16(04):71-75+81.
[7] 孙小素,尹思源.个人因素对考研结果的影响分析--基于logistic回归[J].山东工商学院学报,2019,33(04):45-53.
[8] 杨莉.贵州省高校经济类研究生入学考试成绩影响因素分析[J].社会科学二辑,2011,(S1):20-32.
[9] 郑冬冬.本科院校背景对大学生考研成功的影响因素研究--基于南京市16所高校的问卷调查[J].高等理科教育,2018(04):75-81.
[10] 李国昌,任笑良.成功考研大学生的体性特征分析[J].中国地质大学学报(社会科学版),2013(S1):145-148.
[11] 敖练,许峰.学务指导之下的复合型人才培养模式研究[J].湖北社会科学,2006(12):182-184.
[作者简介:陈志强,男,汉族,四川省资阳市,本科,成都大学,会计学;雷欢,男,汉族,四川省泸州市,本科,成都大学,工商管理;段磊,男,汉族,黑龙江省延寿县,本科,成都大学,国际贸易;李文,男,汉族,四川省绵阳市,本科,成都大学,工商管理;刘梦,男,汉族,四川省成都市,本科,成都大学,财务管理。]
232