《數據挖掘》教學大綱
課程名稱:
| 數據挖掘
|
|
|
課程編號:
| 408402
| 436415
|
|
適用專業(yè):
| 計算機科學與技術
| 軟件工程
|
|
課程類別:
| 專業(yè)任選課
| 專業(yè)任選課
|
|
課程學分:
| 3
| 3
|
|
總學時:
| 48
| 48
|
|
其中:理論學時
| 36
| 36
|
|
實驗學時
| 12
| 12
|
|
先修課程:
| 高級語言程序設計、離散數學、概率與數理統(tǒng)計、數據庫原理
|
一、課程的性質、目的與任務
數據挖掘是綜合了機器學習、統(tǒng)計和數據庫的一門現代計算機技術,旨在發(fā)現海量數據中的模型與模式,具有巨大的應用前景。在很多重要的領域,數據挖掘都發(fā)揮著積極的作用。因此這門課程是計算機專業(yè)及相關專業(yè)的重要課程之一。
《數據挖掘》課程是計科專業(yè)與軟工專業(yè)的專業(yè)任選課程,通過本課程的學習使學生掌握數據挖掘的基本概念,了解數據挖掘的定義和功能以及實現數據挖掘的主要步驟和具體實現方法,初步掌握數據挖掘的算法。使同學們在學習本課程后,能實現簡單的數據挖掘算法編程,了解實現數據挖掘的具體操作。
通過本課程的學習,要求學生達到:
1.了解數據挖掘技術的整體概貌
2.了解數據挖掘技術的主要應用及當前的研究熱點問題和發(fā)展方向
3.掌握最基本的概念、算法原理和技術方法
二、課程教學基本內容與要求
第一章 引言
(一)基本教學內容
1.1什么激發(fā)了數據挖掘,為什么它是重要的
1.2什么是數據挖掘
1.3對何種數據進行挖掘
1.4數據挖掘功能——可以挖掘什么類型的模式
1.5所有模式都是有趣的嗎
1.6數據挖掘系統(tǒng)的分類
1.9數據挖掘的主要問題
(二)基本要求
教學目的:掌握數據挖掘的基本概念、理解數據挖掘的形成與發(fā)展過程、了解數據挖掘的數據對象、了解數據挖掘所具有的功能。
教學重點:重點講解數據挖掘的功能
教學難點:數據挖掘功能
第二章 數據預處理
(一)基本教學內容
2.1 為什么要預處理數據
2.2 描述性數據匯總
2.3 數據清理
2.4 數據集成和變換
2.5 數據歸約
2.6 數據離散化和概念分層產生
(二)基本要求
教學目的:了解數據預處理的原因,掌握數據預處理的方法。
教學重點:數據清理、數據集成和變換、數據歸約、數據離散化和概念分層
教學難點:數據歸約、數據離散化和概念分層
第三章 數據倉庫與OLAP技術概述
(一)基本教學內容
3.1 什么是數據倉庫
3.2 多維數據模型
3.3 數據倉庫的系統(tǒng)結構
3.4 數據倉庫實現
3.5 從數據倉庫到數據挖掘
(二)基本要求
教學目的:理解數據倉庫的概念,了解數據倉庫的多維數據模型,理解數據倉庫的系統(tǒng)結構,掌握數據立方體的有效計算。
教學重點:多維數據模型
教學難點:數據立方體的有效計算
第四章 數據立方體計算與數據泛化
(一)基本教學內容
4.1 數據立方體計算的有效方法
4.2 數據立方體和OLAP技術的進一步發(fā)展
4.3 面向屬性的歸納——另一種數據泛化和概念描述方法
(二)基本要求
教學目的:了解數據立方體計算的有效方法,了解數據立方體和OLAP技術的進一步發(fā)展,理解面向屬性歸納的方法。
教學重點:數據立方體計算的有效方法
教學難點:完全立方體計算的多路數組聚集
第五章 挖掘頻繁模式、關聯和相關
(一)基本教學內容
5.1 基本概念和路線圖
5.2 有效的和可伸縮的頻繁項集挖掘
5.3 挖掘各種類型的關聯規(guī)則
5.4 由關聯挖掘到相關分析
(二)基本要求
教學目的:理解關聯規(guī)則的相關概念,掌握頻繁項集挖掘的方法,理解關聯挖掘的相關性分析。
教學重點:頻繁項集挖掘的方法。
教學難點:Apriori算法。
第六章 分類和預測
(一)基本教學內容
6.1 什么是分類,什么是預測
6.2 關于分類和預測的問題
6.3 用決策樹歸納分類
6.4 貝葉斯分類
6.5 基于規(guī)則的分類
6.6 用后向傳播分類
6.11預測
6.12準確率和誤差的度量
6.13評估分類器或預測器的準確率
6.14系綜方法——提高準確率
(二)基本要求
教學目的:掌握分類和預測的基本概念和問題,掌握決策樹分類的方法,理解基于規(guī)則分類的方法,了解貝葉斯分類和后向傳播分類方法,掌握預測的方法。
教學重點:決策樹分類
教學難點:貝葉斯分類和后向傳播分類
第七章 聚類分析
(一)基本教學內容
7.1 什么是聚類分析
7.2 聚類分析中的數據類型
7.3 主要聚類方法的分類
7.4 劃分方法
7.5 層次方法
7.6 基于密度的方法
7.11離群點分析
(二)基本要求
教學目的:掌握聚類分析的基本概念和數據類型,理解聚類方法中的典型劃分方法:k均值和k中心點,并了解多種其他的聚類方法,了解離群點的檢測方法。
教學重點:k均值
教學難點:k均值和k中心點
三、課程各章節(jié)學時分配
序號
| 內容
| 理論學時
| 實驗學時
|
計科
| 軟工
| 計科
| 軟工
|
1
| 引言
| 2
| 2
| 2
| 2
|
2
| 數據預處理
| 4
| 4
|
|
|
3
| 數據倉庫與OLAP技術概述
| 4
| 4
|
|
|
4
| 數據立方體計算與數據泛化
| 6
| 6
|
|
|
5
| 挖掘頻繁模式、關聯和相關
| 6
| 6
| 4
| 4
|
6
| 分類和預測
| 8
| 8
| 2
| 2
|
7
| 聚類分析
| 6
| 6
| 4
| 4
|
合計
| 36
| 36
| 12
| 12
|
四、本課程課外學習與修學指導
由于該課程涉及的技術都是目前比較熱門的技術,內容復雜,難度較大,且具有很強的理論性和實踐性,所以要學好本課程,必須做到理論與實踐緊密結合,才能達到較好的學習效果。要求學生多參閱相關書籍和資料,多上機實驗,掌握數據挖掘的基本功能、主要算法及其實現過程。
五、本課程考核方式及成績評定標準
考核方式:考查,開卷
成績評定方法:本課程的考核是平時成績和期終考試成績相結合,理論成績與實驗成績相結合。具體比例為:上課出勤、作業(yè)占10%,實驗占20%,期末考查成績占70%。
其中期未考試總分100分,基礎題占50%,中等難度題占40%,較難題占10%。考試題型主要有:選擇題、填空題、判斷題、簡答題、計算題、論述題、綜合應用題等。
六、教材及參考書
教材:《數據挖掘:概念與技術》(原書第2版),Jiawei Han, Micheline Kamber著,范明,孟小峰譯,機械工業(yè)出版社,2011年
主要參考書:
[1]《數據倉庫與數據挖掘》安淑芝等編著,清華大學出版社,2005年8月
大綱撰寫人:彭劍
大綱審閱人:羅如為
教學副主任:易葉青
編寫日期:2012.6