我国高等教育质量省域分层的K—均值聚类研究
发布时间:2019-08-11 来源: 日记大全 点击:
摘 要:近年来,国民对教育的重视程度越来越高,众多学子通过高等教育改变了人生轨迹。正因如此,高等教育的公平性受到广泛关注。教育资源的分配对教育质量的产生极大的影响,所以教育资源分配的公平是高等教育公平的核心。本文通过K-均值聚类算法,分析研究截止2016年我国高等教育质量省域差异的问题。聚类结果表明,我国目前教育资源分配在省域层面存在差异,体现在东西部差异与自治区差异中。但这种差异并不悬殊,可以被缩小。
关键词:高等教育 教育资源分配 教育质量 K-均值聚类算法
一、简介
(一)研究背景
高等教育作为民族振兴、社会进步的重要基石,在当下受到极高的重视。教育兴则国家兴,教育强则国家强,高等教育正在承担着增强中华民族创新创造活力,实现中华民族伟大复兴的历史使命。作为万千即将面临高考、踏入高等教育大门的高三学子之一,我在憧憬与盼望的同时,也关心着高等教育的改变与发展。本篇论文的创作灵感便来源于此。
高等教育因其重要性而被媒体广泛聚焦、被舆论重点关注、被人们时刻心系。但教育资源在各省分配不均衡的现象,长久以来便是社会热议的重点话题。教育本身是公平的,但在教育质量相对突出的省市学习生活的学生接受了比教育质量相对低的省市的学生更好的教育,这样教育资源分配不公的问题导致了之后升学、工作等一系列问题的不公。教育资源分配不均直接体现在教师水平、课程资源、科研经费的分配不均。特别是那些“985工程”和“211工程”院校以及“双一流”院校,这些院校的课程设置及其丰富、高水平的从业者云集,而地方高校存在师资力量短缺和课程匮乏的现象。高三学子普遍在报考大学时,将学校所在省市的教育质量作为重要的参考依据,由此可见一斑。资源分配的不均衡会导致社会的贫富差距越来越大。人才向教育资源多且收入高的地方流动,导致本该需要教育资源的地方人才流失。这也会变向扭曲公民的价值观,纷纷向教育质量高的省市移动。
为此,国家也已出台了许多政策缓解这样的现状,比如在研究生入学考试时按地区将中国的省事划分的A、B、C类地区,依据考生的生源地以及目标学校的所在地划分出不同的国家线,以保障那些教育质量欠发达地区的学生可以以相对较低的分数与其他考生竞争,而那些想考入教育质量欠发达地区的学生也会得到较低的国家线。又比如很多高等教育学府都积极响应国家政策,鼓励大学生毕业后到偏远地区支教工作,同时给予应得政策优惠。通过这种方式,既可以有效促进偏远地区教育质量平稳提升,同时也向当代青年人宣传正确的价值理念。
为进一步深入分析我国目前各省市高等教育水平,本论文通过定量方法讨论我国2017年各省市(除香港特别行政区、澳门特别行政区、台湾省)高等教育资源分配的分层现象,依据评价高等教育水平的各项指标数,采用数据挖掘中常用的聚类分析方法,将教育资源分配相近的省市分在同一层中,分配有差异的省市分在不同簇中。同一簇中通过对比,分析出两省市教育资源分配相近的原因,簇与簇之间通过对比,分析出那些教育资源相对丰富和相对匮乏的省市,以进一步分析,为解决这种不均衡现象提供定量的参考依据。
(二)研究方法
1.数据挖掘
第三次科技革命让人类进入到了“信息时代”的新纪元,计算机的发明、出现和普及推动了一系列新型产业、新型科技的形成,也推动了社会的发展和人类文明的进步。进入新世纪以来,各行各业中生产出的数据量以每18个月翻一番的惊人速度增长。人们搜集数据、处理数据的能力也随着数据量的增加不断提高,而这种趋势在近几年变的更为明显。数据也从单一产生于互联网行业衍生到医疗卫生、公共安全、交通物流、电信、金融保险、气象地理等各行各业。如此爆炸式发展的数据激起了对数据处理的新的要求。虽然不断扩大的数据量满足了人类学习、生活、工作的需求,但也极大地增加了找到有用信息的难度。如何短时间内找到更为精准的信息,更好的服务于人类的生产生活,更好的推动社会文明的发展,已经成为当代科研人员关注的重点问题。基于这种需求,数据挖掘这门技术应运而生。
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。如图1.1所示,数据库中知识发现(knowledge discovery in database,简称KDD,下同)是将未加工的数据转换为有用信息的整个过程,而数据挖掘是KDD中不可缺少的一部分。本文研究將按照KDD的步骤进行,即输入数据、数据预处理、数据挖掘(K-均值聚类)、数据后处理、信息分析。
2.聚类分析
聚类分析是数据挖掘技术中一项重要的分支。在人们对世界的观察、分析和描述中,或者在某些概念某些维度上具有特定公共属性的对象组起着巨大的作用。例如生物学中对所有生物体的系统分层学:界、门、目、科、属、种,便是一种聚类。“聚类”同我们生活中常见的“分类”一词既有相似之处又存在不同,我们在很小的时候就能将图片分类为水果、动物、建筑物等,但是在这个例子中,我们先已知了每一类别的特点。而在聚类分析中,我们要先找到每一个分组中的元素,再根据结果来归纳组内元素的共同特点,并不需要事先定义好类,甚至连类的数量也不需要定义。聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组,即将数据划分成有意义或有用的簇。聚类分析的主要目的是,组(簇)内的对象相互之间是相似的、相关的,而组(簇)间的对象是相异的、不相关的。组(簇)内的相似性越高,组(簇)之间的相互差异越大,此聚类就越好。因此评价一个聚类是否合理的标准是每一簇内的质点是否具有相似的属性、簇与簇之间是否有明显的差异。而对于簇的定义则依不同的数据特性和期望的结果而产生变化。
3.K-均值聚类算法简介
K-均值聚类算法是聚类方法中最典型的一种,其中k代表簇的个数。这种算法于1967年由James MacQueen提出,而后在各领域广泛应用。它的中心思想是将各簇的质心移动至簇内所有点的平均位置,而后将各点按照其到新质心的距离重新分配入不同的簇。通过反复迭代,直到移动质心前后所有质点所在的簇均不发生变化为止。在整个算法过程中,质点间的距离,质点与质心的距离,质点与新质心的距离需要多次计算。这个距离衡量了质点相互间,质点与质心的偏差程度,这种距离在本文中的实际意义代表了被选取两省的教育质量相似或者相异程度。仿照在中学课程中二维坐标系中对两点A(x1,y1),B(x2,y2)欧几里得距离的定义如下式(1.1):
热点文章阅读