您现在位于:首页 > 教学大纲
《数据挖掘与商务智能》教学大纲
课程编号:
课程名称:数据挖掘与商务智能    英文名称:Data Mining and Business Intelligence
学时:46                        学分:3
课程类型:专业课程              课程性质:选修
适用专业:软件工程/计算机       先修课程:概率论与数理统计、数据结构、数据库
开课学期:第7学期               课院系:软件学院/计算机学院

一、教学目标

   本课程主要介绍模式发现、数据挖掘、商业数据分析与预测的基本理论和算法,具有很强的基础性和通用性。本课程注重吸收国际研究前沿的最新成果,使得课程的讲授内容始终 保持前沿性和先进性。此外,积极引入国内外工程领域的先进的工具和案例,介绍数据挖掘技术的应用、商务智能的现状及未来发展趋势,带有鲜明的海量大数据处理的时代特征 。本课程的教学目标主要有以下三个方面:掌握数据挖掘常用算法及应用场景;熟悉商务智能领域主流产品及工具;能够应用数据挖掘原理和算法,通过对数据分析和处理,解 决商务智能中的实际问题。

  

二、本课程教学方式

   本课程目前采用理论教学与实验教学相结合,使得学生不仅能够掌握数据挖掘的基本概念、基础理论和经典算法,而且具备将数据挖掘方法熟练地应用到实际工程应用中的能力。 通过引入WEKA等开源数据挖掘软件、先进的IBM SPSS海量数据分析平台,通过系列实验、课程作业、应用案例帮助学生更好地掌握数据挖掘在商务智能数据分析中的实际应用。在 课程中引入应用实践项目,训练学生解决构造智能商务应用系统、解决商务智能中关键难点问题的能力。努力将基础理论知识教学与应用实践紧密结合,在本课程的教学实施过程 中,倡导“做中学”的教学方式和“案例式”教学手段,将理论与应用紧密联系起来,提升课堂教学质量。

三、课程内容及基本要求



第一章 绪论

课时:0.5周,2学时。

主要内容:介绍数据挖掘课程的内容、意义和应用;介绍数据挖掘的主流分析工具;介绍课程的参考书籍、课程的考核评价方式。

课程安排:
1.课程导引(2学时)
掌握:数据挖掘研究的主要内容和所需基础知识;
了解:数据挖掘的起源、理论意义和应用领域。
掌握:当前主流的数据挖掘商业工具IBM SPSS Modeler的主要功能,讲解该软件建模过程中预处理数据、构建流、选择模型、链接数据库、导出到外部程序等概念和基本操作。

第二章 数据与数据预处理

课时:1周,4学时。

主要内容:介绍数据挖掘课程的内容、意义和应用;介绍数据挖掘的主流分析工具;介绍课程的参考书籍、课程的考核评价方式。
课程安排:

1.数据(1学时)
掌握:数据形似性、相异性的度量;数据中心趋势度量;数据离散程度度量;
了解:数据汇总的图形表示。

2.数据预处理(1学时)
掌握:数据的维数约简、特征选择、数据清洗、数据集成的基本方法;
了解:数据立方、数值规约等方法。

第三章 关联规则挖掘

课时:2周,8学时。

主要内容:介绍频繁模式、关联规则挖掘的基本概念和原理,详细介绍几种经典的关联规则挖掘算法的工作过程;结合实际商务应用案例,学习关联分析的主流工具软件。
课程安排:

1.基本关联规则挖掘算法(2学时)
掌握:经典频繁模式挖掘算法Apriori和FPGrowth;
掌握:基于频繁模式的关联规则挖掘的原理和过程。

2.高效关联规则挖掘技术(2学时)
掌握:ECLAT等基于垂直数据关联规则挖掘的工作原理;
了解:实现高效关联规则挖掘算法的各种优化方法。

3.挖掘极大、闭合关联规则模式(2学时)
掌握:极大频繁模式挖掘算法MaxMiner的工作原理
掌握:闭合模式挖掘算法CLOSET
了解:改进闭合模式挖掘算法CLOSET+、CHARM等。

4.关联规则挖掘的商务应用案例(2学时)
掌握:采用IBM SPSS等商业统计分析工具进行关联规则挖掘的主要步骤和方法。
了解:基于IBM SPSS Modeler软件的购物篮分析、商品推荐等关联规则挖掘的经典商务智能应用范例。

第四章 分类技术

课时:2.5周,10学时。

主要内容:介绍监督分类技术的相关概念、原理和经典算法,掌握不同分类方法的基本原理和实现过程,结合实际智能商务应用案例,学习分类技术的具体应用。

课程安排:

1. 贝叶斯和决策树分类方法(2学时)
掌握:朴素贝叶斯分类方法;
掌握:经典决策书分类算法CART、ID3和C4.5;
了解:贝叶斯网络的相关概念和工作原理;

2.最近邻分类方法(2学时)
掌握:k-近邻分类方法的工作原理和过程
了解:基于案例的推理方法

3.感知机与最大间隔分类方法(2学时)
掌握:感知机算法的工作原理;
掌握:人工神经网络的原理以及后向传播算法(BP);
掌握:支持向量机(SVM)的概念与工作原理。

4. 组合多分类器技术(2学时)
了解:装袋(Bagging)和提升(Boosting)方法的工作原理;
掌握:自适应提升算法(AdaBoosting)的原理和过程。

5.分类技术的商务应用案例(2学时)
掌握:介绍数据挖掘工具IBM SPSS Modeler进行数据分类的常用策略,分析数据的CRISP-DM 过程模型。概述建模方法,详细简介、展示分类模型中决策树、神经网络、贝叶斯网络等算法实例。
了解:客户关系管理系统(CRM)、入侵检测等分类技术的经典商务智能应用范例。

第五章 聚类技术

课时:2周,8学时。

内容:介绍无监督数据聚类技术的相关概念、经典算法和实际商务应用案例。
课程安排:

1. 基于划分的聚类(1学时)
掌握:基于均值的聚类算法k-means;
了解:基于中心点的聚类算法k-medoids和Clarans。

2. 层次聚类(1学时)
掌握:分裂、凝聚层次聚类算法的工作原理和过程;
了解:基于B+树的高效层次聚类算法Birch。

3. 基于密度的聚类(1学时)
掌握:基于高密度连接区域的密度聚类算法DBSACN;
了解:基于排序点图的密度聚类算法OPTICS。

4. 基于网格的聚类(1学时)
掌握:基于统计信息网格的聚类算法STING

5. 基于图论的聚类(1学时)
掌握:最小生成树(MST)聚类算法;
了解:基于图的互连度和接近度的聚类算法Chameleon。

6. 基于模型的聚类(1学时)
掌握:期望最大化算法EM的工作原理
了解:一种概念聚类算法CobWeb。

7. 聚类技术的商务应用案例(2学时)
掌握:介绍数据挖掘工具IBM SPSS Modeler进行数据聚类的常用策略,详细简介、展示聚类方法中k-均值、DBSCAN、EM等算法。
了解:用户偏好分析(Profile)、商业客户细分等聚类技术的经典商务智能应用范例。

第六章 序列模式挖掘

课时:1周,4学时。

内容:介绍序列模式挖掘的相关概念、经典算法。
课程安排:

1.基本序列模式挖掘算法(2学时)
掌握:基于Apriori的序列模式挖掘算法;
掌握:基于模式增长的序列模式挖掘算法PrefixSpan;

2.了解:序列模式挖掘算法GSP、SPADE、IncSpan等。
闭合序列模式挖掘算法(1学时)
掌握:闭合序列模式挖掘算法CloSpan。

3.序列模式挖掘的商务应用案例(1学时)
掌握:IBM SPSS Modeler中的序列关联分析模型,包括Apriori、Carma模型等。
了解:系统日志挖掘、移动用户轨迹预测等序列模式挖掘的经典商务智能应用范例。

第七章 链接分析与图挖掘

课时:1周,4学时。

内容:介绍图挖掘与链接分析的相关概念、经典算法和实际应用案例。

课程安排:
1. 链接分析与权威资源发现(1学时)
掌握:基于链接关系分析的网页排序算法PageRank;
掌握:基于权威度和中心度的网页互排序算法HITS。

2.频繁子图模式挖掘(2学时)
掌握:频繁子树模式挖掘算法TreeMiner;
掌握:频繁子图模式挖掘算法FSG和gSpan;
了解:闭合频繁子图模式挖掘算法CloseGraph。

3. 链接分析与图模式挖掘的商务应用案例(1学时)
掌握:IBM SPSS Modeler中关于社交网络分析的两种算法GA、DA。
了解:搜索引擎、协同推荐、社交网络分析、集成电路布线设计等图数据挖掘的经典商务智能应用范例。

第八章 异常检测

课时:1周,4学时。

内容:介绍异常检测的相关概念和一些经典算法,以及异常检测算法在商业领域的具体应用。介绍数据挖掘商业主流软件的使用,建模流程.

课程安排:

1.离群点检测原理和算法(2学时)
掌握:基于临近度的离群点检测方法;
了解:基于监督学习的离群点检测方法;
掌握:基于密度的离群点检测方法LOF。

2.离群点检测的商务应用案例(2学时)
掌握:IBM SPSS Modeler中异常检测建模过程;
了解:欺骗检测、业务告警等异常检测的经典商务智能应用范例。

四、上机实验具体内容

(一)SPSS软件熟悉和关联规则挖掘

实验主题:应用关联规则模型提高超市销量
商业案例:如何摆放超市的商品引导消费者购物从而提高销量,对大型连锁超市来说是一个现实
的营销问题。关联规则模型可以在海量数据中依据该模型的独特算法发现数据内在的规律性联系,
进而提供具有洞察力的分析解决方案。本次实验通过一则超市销售商品的案例.
实验任务:熟悉IBM SPSS Modeler软件的基本操作、基本概念;利用软件提供的Apriori算法对购
物篮数据集进行关联规则挖掘,数据集为Demos文件夹下的 BASKETS1n;总结实验过程,完成实验
报告。
实验方式:课上讲解、展示基本操作,助教指导学生上机完成实验。

   

(二)利用SPSS软件进行分类建模

实验主题:应用 SPSS支持向量机模型评估银行客户信用
商业案例:商业银行个人信用评估就是根据个人信息和借贷记录等历史数据,判断个人信用,它是
保证信贷安全的重要一环。支持向量机模型 ( 简称 SVM) 能够很好的处理此类数据,进行有效的信
用评估。实验任务:使用UCI Machine Learning Repository 上公开的商业银行客户信用记录作为
数据集,创建基本流,建立模型进行信用度分类。切换不同的核函数,选择最合适的模型,并利用模
型评估客户信用,完成实验报告。
实验方式:课上讲解、展示基本操作,助教指导学生上机完成实验。

   

(三)利用SPSS软件进行聚类分析

实验主题:应用SPSS帮助电信运营商细分用户
商业案例:目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现
有客户是企业客户管理的重中之重。用户细分后,企业管理者可以根据不同客户群体的特征,做出
不同的营销策略。
实验任务:本次实验利用IBM SPSS Modeler 中提供的k均值聚类方法对用户进行聚类,并对结果进
行分析和应用。该次实验数据集需要进行一定预处理。利用数据集建立模型,细分用户后完成实验
报告。
实验方式:课上讲解、展示基本操作,助教指导学生上机完成实验。

   

(四)利用SPSS软件挖掘频繁序列模式

实验主题:应用序列模式挖掘购物篮,建立聪明的营销策略
商业案例:同实验一,但这次使用序列模式挖掘,分析的将更加详尽。
实验任务:利用IBM SPSS Modeler软件提供的序列模式挖掘功能对购物篮进行序列模式挖掘,更深
入的挖掘超市购物记录,建模后分析实验结果,并完成实验报告。
实验方式:课上讲解、展示基本操作,助教指导学生上机完成实验。

   

(五)利用SPSS软件分析社交网络

实验主题:应用SPSS挖掘网络社团,助力网络营销
商业案例:当前,随着网络时代的不断发展,越来越多的人加入了微博、facebook等各种形式的社
交网络。在这些社交网络中,人与人之间的交互形成了一个庞大的图。商家如果在这种图中准确的
定位客户群体,将会获得巨大的商业价值。
实验任务:本次实验利用IBM SPSS Modeler中提供的GA、DA算法对Twitter用户进行社团挖掘,并对
结果进行分析和应用。
实验方式:课上讲解、展示基本操作,助教指导学生上机完成实验。

   

(六)利用SPSS软件进行异常检测

实验主题:应用SPSS提升网络环境安全
商业案例:在电信、金融等行业,网络环境安全是确保商业活动正常进行的一个重要条件。一般的
企业网络都会对用户访问记录日志,在这些记录中,绝大多数的访问行为是正常、安全的,然而也
有一些具有入侵特征的访问记录。在海量数据中如果能迅速定位这些异常数据,能够帮助企业及时
的制定应对策略,保证商业活动正常进行。
实验任务:本次实验利用IBM SPSS Modeler中提供的异常检测算法,对KDD’99数据集(网络访问日
志数据集)进行异常数据挖掘,建模后对数据进行分析和挖掘。完成实验报告。
实验方式:课上讲解、展示基本操作,助教指导学生上机完成实验。

五、教学安排及方式

总学时 46 学时,讲课 40 学时,实验 6 学时。


六、考核方式

课程考核分为课后作业、实验报告和应用项目三部分相结合的方式进行:
1.课后作业(占总成绩的30%)
考查学生对数据挖掘基本理论的掌握以及科学研究的能力。选做教材中的部分习题,提习解答。
2.实验报告(占总成绩的30%)
考查学生编程动手能力,以及对课程中的基本概念和方法的掌握情况。每章内容结束后一次实验
上机题目。学生按照实验任务要求,上机完成实验,按照规定格式撰写一份实告。
3.应用项目(占总成绩的40%)
考查学生的综合运用知识,解决实际问题的能力。形式为教师选择一个当前数据挖掘及智能领域
的一个热点研究问题,提供待解决问题和数据的详细描述。学生针对此问题查研究相关的资料文
献,并针对已有数据集编程实现一种解决方案,并提交详细项目报告

七、推荐教材与参考资料

教材:
陈封能(Pang-Ning Tan)等著,范明等译. 数据挖掘导论(完整版). 人民邮电出版社
参考文献:
[1] 韩家炜等. 数据挖掘概念与技术(第三版).机械工业出版社. 2012.
[2] IBM.IBM SPSS Modeler用户指南. 2011.
[3] IBM.SP0A2002 Introduction to IBM SPSS Modeler and Data Mining
[4] 元昌安. 数据挖掘原理与SPSS Clementine应用宝典. 电子工业出版社.2009.
[5] IBM白皮书. 通过整合SPSS Modeler 和 Cognos BI 将商业智能推向新高度.2012
[6] Ethem Alpaydm. 机器学习导论. 机械工业出版社.2009.
[7] 张公让等. 商务智能与数据挖掘. 北京大学出版社.2010.
[8] [美]Michael L,.Gonzales. IBM数据仓库及IBM商务智能工具. 电子工业出版社.2004