刊文精选

2022年第4期:“数据挖掘”课程运用网络资源的教学探索

来源:教育教学论坛 2022/6/8 17:19:01

“数据挖掘”课程运用网络资源的教学探索

高波

[摘 要] 在信息技术的推动下,许多高校都在建设网络教学平台,中国大学MOOC等网站也有很多课程的教学视频。运用网络资源对“数据挖掘”课程进行了探索,根据“数据挖掘”课程的特点,合理分配理论教学和实验教学的学时;在理论教学时,讨论网络资源如何影响备课和授课,并且以人工神经网络模型为例,介绍怎样在课堂教学中应用网络资源;从软件环境、实验数据、模型代码等方面,讨论实践教学利用网络资源的方法;根据教学评价结果,改进混合式教学的组织方法,提升“数据挖掘”课程的教学效果。

[关键词] 数据挖掘;理论教学;实践教学;网络资源

[基金项目] 2022年度北京市教委社科项目“金融风险的多源数据的分析和预测方法研究”(SM202210009002);2020年度北京市教委市属高校基本科研业务费“协同感知智能挖掘与统计分析技术”(110052971921/007);2018年度北方工业大学教育教学改革和课程建设研究项目“统计学专业‘数据挖掘技术’课程建设研究”(NCUT2018JGM47)

[作者简介] 高 波(1984—),男,山东聊城人,博士,北方工业大学理学院统计系讲师,主要从事数据分析与风险管理研究。

[中图分类号] G642.0 [文献标识码] A [文章编号] 1674-9324(2022)04-0131-04 [收稿日期] 2021-06-15

引言

在信息时代,经济或科研活动产生了大量的数据,例如,网络购物已经走进千家万户,食品、衣物、书籍和电器等都可以在网站或者App购买。大型电子商务公司正在运用用户的浏览或交易记录,刻画他们的特征,推荐消费者可能感兴趣的商品,并评价生产者的信用情况,决定是否向他们发放小额贷款。这些工作需要大量掌握数据挖掘技术的人才,因此很多院校的统计学专业纷纷开设“数据挖掘”课程。

在信息技术的推动下,在线教育迅速兴起。它突破了传统教学时间、空间等限制,通过互联网将教师讲课的视频、音频等传递给学生。很多高校和科技公司合作,建设中国大学MOOC和学堂在线等平台,推出许多名师主讲的课程教学视频,其中,近千门课程被认定为国家精品课程。在新冠疫情期间,这些视频为保障学生的学习活动发挥了重要作用,同时,高校教师还纷纷采用直播教学方式,建立师生有效互动的教学环境。企业微信、腾讯会议和阿里钉钉等很多软件能够支持直播教学。以企业微信为例,直播授课的主界面是教师正在讲解的PPT,两个小窗口分别显示教师的授课环境和听讲的学生名单,教师可以借助数位板设备和希沃白板软件,板书教学方案和关键知识点等。

在线下教学中,如何利用线上教学资源,成为很多学者关心的话题。孙瑞娜提出以课堂为主、线上为辅开展“数据挖掘”教学,增加实验课学时和过程考核比例[1];柯佳和陈潇君在线下教学中采用分组讨论或分组实验的方式,在线上平台发布教学资料、汇总学生作业等[2];郗朋等人提出课前网络学習、课堂教学和课后拓展提升的混合式教学模式[3],并将传统课堂+信息技术升级为智慧课堂;卞金金和徐福荫设计智慧课堂的学习模式,指出教师和学生在课前、课中和课后的工作要点,并且以小学英语的一节阅读课为例,阐述智慧课堂的教学过程[4];毛群英从教学目标、教学过程和教学评价三方面设计智慧课堂的教学模式[5]。综上所述,虽然部分学者提出了利用线上资源的教学模式,但是尚未深入研究慕课、B站等网络教学视频的作用。

一、“数据挖掘”课程的教学方案

我校统计学专业是北京市一流专业,其主要特色方向是商业调查与数据挖掘。围绕这两个方向,统计学专业开设了“市场调查方法”“数据挖掘”“抽样技术”“R程序语言”等课程。其中,“数据挖掘”课程设置在第6学期,面向大三学生。在这个阶段,学生已经掌握回归分析、因子分析等统计模型和Python、R等计算机语言的基本知识。

以数据挖掘为主题的书籍和网络资源较为丰富。在讲解模型原理时,涉及的书籍包括Tan等著的《数据挖掘导论》、Han等著的《数据挖掘概念与技术》和Wu等著的《数据挖掘十大算法》等;线上视频资源包括学堂在线网站上清华大学袁博主讲的《数据挖掘:理论与算法》、B网站上斯坦福大学Leskovec等主讲的《数据挖掘》等。在讲解算法编程时,涉及的书籍包括张良均等著的《R语言与数据挖掘》和《Python与数掘挖掘》等,线上资源包括B站上某些科技公司制作的讲解怎样利用R或者Python语言编写数据挖掘代码的视频等。

在教学实践中,本课程在参考这些资料的基础上,根据学生的需求,不但在理论上系统讲解多个数据挖掘模型,而且安排上机实验,讲解其R或者Python代码。在理论教学部分,要求学生掌握模型的原理、步骤和算例等;在实践教学部分,要求他们熟悉程序的界面和代码的结构等。学好理论能够加深对实验结果的理性认识,做好实验则能够增加对理论的感性体验,因此,二者能够相互促进,共同提升课程的教学效果。相较于实践教学,在理论教学中学生需要更多的思考时间,因此,本课程按照2∶1的比例分配48个课时,理论教学共32个课时,实验教学共16个课时。

在理论教学部分,本课程主要讲解分类、聚类、推荐和关联等四种数据挖掘模型。在分类模型部分,本课程依次讲解分类预测框架、决策树模型、最近邻模型、贝叶斯模型、人工神经网络模型、支持向量机模型,以及随机森林、Adaboost等集成分类模型。这些模型难度较大,通常安排2个课时讲解1个模型,有些模型如人工神经网络模型甚至需要4个课时。在聚类模型部分,本课程依次讲解K均值聚类、凝聚层次聚类、DBSCAN模型、EM算法等。这些模型难度较小,通常安排1个课时讲解1个模型。在推荐模型部分,本课程主要讲解PageRank算法等。在关联模型部分,本课程主要讲解Apriori算法等。

在实践教学部分,本课程要求学生掌握数据挖掘模型常用的模块或者函数,熟悉模型的代码结构,能够解决调试代码时遇到的问题。学生在接触“数据挖掘”课程前,普遍接触过R和Python;因此,本课程在实现数据挖掘模型时,选择R和Rstudio等R系列软件,或Anaconda和Pycharm等Python系列软件。在教学过程中,本课程基本上每个课时练习1个模型。部分代码较长的模型,如人工神经网络模型等,本课程将用2个课时带领学生开展数据实验。

在教学活动中,本课程充分利用网络资源,在理论教学时,教学设计、课前课后和课堂教学等环节都会使用网络资源;在实验教学时,软件环境、实验数据和模型代码等方面也会运用网络资源。本课程还会根据教学评价结果调整混合式教学方法等,后文将详细讨论这些内容。

另外,本课程还注重衔接学科竞赛和硕士教育等。大三学生普遍参加全国大学生市场调查与分析大赛、全国大学生统计建模大赛等赛事。本课程讲述的模型能完善学生的知识体系,例如分类模型的因变量为二元变量或离散变量,回归模型的因变量是连续变量,二者互为补充,能够丰富学生的方法库,帮助他们解决难度较大的竞赛问题。此外,本课程有助于提升大三学生的专业技术能力,幫助学生本科毕业后继续攻读硕士学位。

二、理论教学与网络资源

在设计教学活动时,应当从网络资源中汲取营养。数据挖掘的经典书籍较多,即使选择其中一本作为教材,在讲解某个模型时,也可以借鉴其他图书或者知乎、CSDN等网站介绍的方法。在备课时,应该根据教材编写PPT,挖掘教学的重点和难点等。有些主讲教师在网络上分享了他们制作的PPT,其他教师就能以这些资源为素材设计自己的教学活动;一些网络视频完整地记录了某些教师的教学过程,其他教师在备课时,就能借鉴他们讲解知识点的教学方法、教学进度和教学案例等。

网络资源在课堂教学前后都发挥着重要作用。我校开发的多模式教学平台能够发布课件资料、课程作业、学习讨论等。课前,学生可以预习即将讲授的课件,观看教师推荐的网络视频;课后,学生运用学到的知识解答习题,遇到不会的题目可以通过微信联系教师,得到及时的指导。但是,学生课下学习的积极性总不如课上,课前预习的学生大约只是选修学生的一半左右。有些学生没有选修这门课程,却需要应用数据挖掘模型撰写毕业论文或者完成“大创项目”和“实培项目”,在这种情况下就只能完全依赖网络视频自学相关内容。

当代课堂教学需要运用网络资源。学生期望在课堂上学会主要的知识点,同时教师也在精心准备课堂教学的重点内容和讲解方法等,因此,课堂教学一直是教学活动的核心阵地和关键环节。传统教学强调教师独立、清楚地讲述知识点的能力,当代教学则提出了一些更高的要求:一是落实立德树人根本任务,守好一段渠、种好责任田,挖掘课程中的思想政治元素;二是组织PPT、网页、视频等各种素材,清晰地描述数据挖掘模型的工作原理;三是设计教学案例和课堂测验等,引导学生积极投入课堂学习,在思考、探索、练习中掌握数据挖掘模型的建模方法等。

以人工神经网络模型的课堂教学为例,本课程选取海康威视公司作为思想政治案例。海康威视公司曾经获得ImageNet大规模视觉识别竞赛冠军,却被美国商务部列入实体清单,供应链安全受到严重威胁。视觉识别经常采用卷积神经网络模型,而它的基础是人工神经网络模型。借此案例激励学生好好学习,勇于创新,将来突破美国对我国的科技封锁。在讲解模型的原理时,本课程从最简单的感知器模型开始,说明激活函数的作用和参数的学习方法等;然后介绍含有一个隐藏层的神经网络模型,说明怎样确定输入层、隐藏层和输出层的节点数目等;最后结合李宏毅的机器学习网络教学视频,说明在多层全连接神经网络里,怎样运用后向传播算法求解模型的参数等。为了让学生掌握这个模型,本课程设置一系列问题,让学生运用前向传播算法计算各个节点的输出结果等。

三、实验教学与网络资源

实验教学需要学生熟悉计算机的硬件性能、配置软件环境、实验数据库和编写模型的代码等。这些都与网络资源存在千丝万缕的联系。

软件环境与网络资源。本课程选择开源软件R和Python实现数据挖掘模型。R软件的安装程序来自https://www.r-project.org/。在调试数据挖掘模型的代码时,可以运用命令install.packages从网络上下载和安装需要的包。编辑Python程序时,经常采用Anaconda或Pycharm软件,这两款软件都能够从网络上找到安装程序。Anaconda的Spyder环境模仿Matlab的界面;Jupyter Notebook环境在浏览器界面编辑,每次只运行一个cell里的程序。它们都预装了numpy、pandas和sklearn等数据挖掘模型的常用包。

实验数据与网络资源。本课程的实验数据主要来自三个方面:第一,R或者Python程序自带的数据库,例如鸢尾花数据、乳腺癌数据等;第二,政府、公司和大学维护的数据库,例如统计局的经济数据、亚马逊公司的公开数据集和加州大学欧文分校的机器学习数据库等;第三,一些科技公司举办的数据挖掘竞赛,例如阿里云平台、百度飞桨AIStudio和华为云平台的竞赛数据集等。

模型代码与网络资源。本课程主要讲解比较经典的数据挖掘模型。前文提到的《R语言与数据挖掘》和《Python与数据挖掘》等经典书籍提供这些模型的R或Python程序代码。在百度网站搜索也能找到一些模型的R或者Python程序代码。因为解决问题的思路不同,所以这些代码的写法存在较大差异,但是它们的结构是类似的。例如R代码通常包括三步:一是导入数据;二是导入包,运用函数完成数据挖掘任务;三是输出模型的结果。Python代码则将导入包或函数放在第一步,然后才导入数据,运用函数或者编写代码完成数据挖掘任务,最后输出模型的结果。

教学经验。采用网络资源提供的数据和代码后,实验教学的重点是数据挖掘模型的函数名称。有些函数名称较短,学生很容易掌握,例如决策树模型的R程序函数tree,支持向量机模型的Python程序函数svm。有些函数名称较长,需要学生结合英文含义记忆,例如凝聚层次聚类模型的Python函数Agglomerative-Clustering。

实验教学的难点是怎样导入数据和安装需要的包。代码案例的数据位置一般不同于学生存放的位置,这就需要他们能够运用命令读入存放在Excel等的数据,例如R程序命令read.csv和Python程序命令pandas.read_excel等。安装包时,运用R命令install.packages或者Python命令pip install等。学生会遇到下载包时由于时间较长而自动终止,安装包时由于和硬件冲突而无法进行等问题。为了解决这些问题,本课程提前在学校的多模式教学平台上传比较大的包,并且鼓励学生携带个人电脑,教给他们从电脑安装包的方法。

四、教學评价

教学评价的对象是教师的教学过程和学生的学习效果。评价前者时,不但会邀请专家进课堂点评教学活动,而且会调查学生对教师的教学组织能力评价等;评价后者时,既包括教师发起的课堂测验、课后作业和期末考试等量化评价,也包括学生在学习时的感性体验和能力提升等。

本课程重视过程评价,将平时成绩比例上调至50%,并且经常运用网络技术搜集评价结果。要求学生平时按时上课听讲,完成较多的学习任务,例如每次实验课都要提交一份实验报告,说明数据挖掘模型的代码调试过程和结果。教师会设计一些小测验,以选择题的形式发布在问卷星上。学生投票后,软件能够做些简单的统计分析,帮助教师了解学生对知识的掌握程度。教师还可以在多模式教学平台发布一些作业,学生完成后在平台提交。

本课程在教学时注重倾听学生的自我评价。学生在理论课中熟悉了经典的数据挖掘模型,逐渐掌握了它们的原理,并且能够做些简单的运算;在实验课中看到了模型的效果,即使程序报错,学生也能够冷静地分析错误的源头,并通过向教师请教或者上网搜索,找到问题的解决方案。这种方式会极大地增强学生的自信心,让他们收获巨大的成就感,同时也让冰冷的模型在他们心中变得鲜活起来。


本文版权归教育教学论坛杂志社及本文作者所有,未经同意,不得转载! ——《教育教学论坛》查稿电话:0311-85178286