还有两天,理想汽车的第二款纯电SUV——理想i6就要迎来上市,理想汽车董事长、CEO李想已提前开始为这款新车预热。 9月24日,理想汽车官方公布了理想...
2025-09-25 8
点击标题下「第一教育专业圈」可快速关注
教育数据治理是为了应对教育大数据应用在管理规范、安全、隐私保护等方面的挑战,是数据治理在教育领域的应用范畴,有助于教育决策更加科学,促使教育服务更加精准, 促进教育改革最优化。
目前,上海市全学段学生人数约 400 万,从学生专题库建设成果来看,涉及学籍、就业、资助三大类数据总量超过 5300 万条,并且各类数据每年都在成倍增长,预计 5 年内将超过 4 亿条。已归集的数据包括高校学生录取、招生、学籍、学历、证书信息,其他类别学生学籍、学历、证书信息,技能人才、就业信息,幼儿、中小学、中职、高校学生资助信息等。对这些数据的归档、分类、管理、更新、运用等,是教育数据治理工作的重要环节和基础。教育专题库项目在上海市级层面为实施学生信息精准管理、掌握学生管理情况、完善上海教育数据的治理,提供了基础数据支持。
依托上海市学生事务中心业务数据标准,教育专题库项目将当前各类归集的学生数据在统一的学生标识、统一的数据集架构、统一的标准规范上进行汇集和治理,充分发挥学生各时期和各方面沉淀下来的教育数据的价值,为教育管理部门进行综合决策提供数据支撑,为业务发展和创新提供强有力的支持。
本文以正在实施的上海市教育专题库学生专题库工作实例,介绍市级大规模学生数据治理的规范标准、重复数据处理方案、不规范数据处理方案、数据清洗实施过程四个方面,作为学生数据治理的建设经验和参考案例。
学生数据治理的规范、数据标准
教育数据要素流通的制度设计和标准体系是数据治理的重点内容。教育数据标准是教育数据元素名称、定义、选项集和技术规范的集合,定义了跨系统的教育数据格式,以及关于教育数据收集、管理、组织和交换的规则。教育数据标准的建立,使得同一种类的数据符合既定惯例,能确保不同来源的数据具有可比性和一致性,并建立起潜在的数据关联,进而让多个系统得以无缝地共享教育数据,最终实现教育数据的共通共用和共同理解。
例如,上海市学生事务中心数据标准分为TB 通用 / 标准数据子集、数据集、代码集三类。数据集下细分了学生基础数据子集、学籍管理数据子集、资助管理数据子集、就业管理数据子集。代码集包含了学生代码集和规范性引用的国家标准、行业标准代码以及教育部实用代码文件。
学生数据治理应着眼于教育数据全生命周期的系统性治理,在数据标准制定环节,对教育数据格式的规范化定义不仅为确保教育数据质量奠定了基础,也尤其使得跨系统的数据共享成为可能。学生专题库数据治理横跨了学生学籍、学生就业(包括出国)、学生资助(包括残疾、低保、农村户口等)等系统,是数据标准跨系统的一次具体运用。
重复数据的分析和处理方案
唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。相同的记录出现多条,这种情况相对好处理,去掉重复记录即可。如不完全重复,比如两条学生记录,其余值都一样,就是住址不一样,有时间属性的还能判断以新值为准,没有时间属性的就无从下手了,只能人工判断与具体业务挂钩分析处理。
解决重复数据问题的方案目前主要有两种,一是在归集数据时要求数据源提供数据记录时间戳和归集时间戳,供数据清洗时做筛选判断;二是在归集数据时做重复数据检验,无法说明必要性的重复数据做退回校验。
展开全文
不规范数据的分析和处理方案
主要判断数据的准确性、完整性、一致性。准确性用于度量哪些数据和信息是不正确的,或者超期的。同一个指标出现多个来源数据时需要准确性的判断。完整性用于度量哪些数据丢失了或者哪些数据不可用,以及单条数据是否存在空值、统计的字段是否完善。一致性用于度量哪些数据未按统一格式存储,数值的类型、内容、大小是否符合设定预想。
比如,在“学生信息”类别大类的“基本信息”小类里,会将学生姓名与学籍信息进行比对,查验一致性和准确性,将性别与国标 GA/T 543.1-2011 公安数据元国家标准比对,查验完整性和准确性。
实现统一学生数据清洗管理方案
对已有学生数据源记录的质量判断业务评估规则包括:在学前、基础教育、中职、高校四张学籍表中任意一张能查到此学生;学生身份证件号不重复、不为空。
方案中,要过滤掉证件号码为 null(空值)的数据;2015 年之前的学生信息存在重复和不规范,对 2015 年之前的数据需要特殊处理;过滤掉登记日期为 null 的数据以及登记年份要小于 1900 年,其中如果受理日期在 2002 年之前,登记日期为 null,则用受理日期补充登记日期。受理时间的区间在 (1900 至当前);剔除证件号码含有汉字的数据;剔除证件号码长度非 15 位或 18 位的数据;剔除机构类别为 null 的教职工基本信息数据;同一身份证同一数据源出现多条,按最后更新时间取最新一条;资格证基本信息剔除学生证编号为 null 的数据;教育机构剔除教育机构编码为 null 的数据。
上海市教育专题库学生专题库的学生数据治理,第一,实现了数据标准最核心的目标,即为学生事务中心各部门、各系统建立了一个沟通的桥梁,并满足了数据标准开放性、透明性、可用性、可维护性的要求。第二,对数据质量治理进行了初步的、颇有成效的尝试,使系统分散的重复冗余数据和不规范数据得到了治理。针对不同的数据特点进行分析 , 如根据结构化数据、半结构化数据和非结构化数据的不同扩展性 , 规范数据清洗处理过程中数据质量的容忍度等。
(本文作者单位系上海市学生事务中心)
(本文原载于《上海教育》杂志2021年12月1日出版,版权所有,更多内容,请参见杂志)
相关文章
还有两天,理想汽车的第二款纯电SUV——理想i6就要迎来上市,理想汽车董事长、CEO李想已提前开始为这款新车预热。 9月24日,理想汽车官方公布了理想...
2025-09-25 8
9月24日,以色列埃拉特,以军拦截胡塞武装无人机失败,已致22人受伤,其中2人伤势严重。 报道称无人机降落在一家酒店附近,多名伤者被爆炸后的碎片击中。...
2025-09-25 8
文/新苏商记者耿朴凡 9月24日,2025宿迁民营企业百强名单出炉,京东物流运输有限公司以营收224.71亿元居于首位,天能股份江苏沭阳公司、江苏桐昆...
2025-09-25 9
极目新闻记者 邓波 近日,一则娃哈哈将换标“娃小宗”的信息在网络流传引发关注。 这份文件名为《关于开展2026年度销售经销商沟通工作的通知》,落款为杭...
2025-09-25 8
9月25日,媒体人付政浩在社媒上谈到了CBA联赛这些年的发展。 付政浩微博原文如下: 2013年全国体育局长会议上,时任篮管中心主任信兰成做交流发言时...
2025-09-25 6
小布提醒您 今日车辆限行尾号3和8 今天白天晴间多云 气温17℃~28℃ 1 2025北京文化论坛闭幕,全球专家共议科技赋能文化新未来 2025北京文...
2025-09-25 7
据中央纪委国家监委网站25日援引云南省纪委监委消息:云南省玉溪市委书记周建忠涉嫌严重违纪违法,主动投案,目前正接受云南省纪委监委纪律审查和监察调查。...
2025-09-25 8
发表评论