數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)中的應(yīng)用探討
張曉東 宋生勤
中山大學(xué)附屬第三醫(yī)院信息科(廣州 510630)
摘要:本文介紹了數(shù)據(jù)挖掘的概念,任務(wù)和效果的評估方法,初步探討了數(shù)據(jù)挖掘的各
種方法以及它在醫(yī)學(xué)領(lǐng)域中的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;神經(jīng)網(wǎng)絡(luò);支持向量機
The Discussion of Application with Data Mining Technology
in Medicine
ZhangXiaodong Dep. of Info. Service The Third Affiliated Hospital of Sun Yat-sen University
zhangxiaodong@163.net (GuangZhou 510630)
Abstract: In this paper we introduce the concept, task of data mining, including the
performance evaluation methods. And we discuss the application with the technology in
medicine.
Keywords: data mining; decision tree; neural network; support vector machine
1. 引言
近年來,數(shù)據(jù)挖掘技術(shù)引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是先進的科學(xué)手
段為我們產(chǎn)生了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取
的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)生產(chǎn)、生產(chǎn)控制、市場分析、工程設(shè)計
和科學(xué)探索等。數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述
為“數(shù)據(jù)豐富,但信息貧乏”。快速增長的海量數(shù)據(jù)收集、存放在大型和大量數(shù)據(jù)庫中,
需要強大的工具進行分析。
目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能, 但
無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則, 無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,無法發(fā)
現(xiàn)海量數(shù)據(jù)背后隱藏的重要的知識, 出現(xiàn)了“我們被數(shù)據(jù)所淹沒,但卻缺乏知識”的現(xiàn)
象。
隨著醫(yī)院信息系統(tǒng)(hospital information system, HIS)的普及以及人類基因組計劃和
分子生物醫(yī)學(xué)信息科學(xué)的飛速發(fā)展,醫(yī)學(xué)數(shù)據(jù)空前增長,像功能基因組和蛋白質(zhì)組的數(shù)
據(jù)已成指數(shù)級增長。如何對大量的數(shù)據(jù)進行存儲、管理、對比、檢索,尋找其相關(guān)性,
挖掘數(shù)據(jù)中所隱藏的規(guī)律,以及對海量的數(shù)據(jù)進行自動獲取,需要新的技術(shù)。
2
2 數(shù)據(jù)挖掘的概念
2.1 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
簡單地說,數(shù)據(jù)挖掘(data mining ,DM),是從大量數(shù)據(jù)中提取或“挖掘”出有用的知
識[1]。數(shù)據(jù)挖掘技術(shù)進行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,對商務(wù)決策、知識庫、
科學(xué)和醫(yī)學(xué)研究做出了巨大貢獻[2]。另外還有一個概念是知識發(fā)現(xiàn)(knowledge discovery
in database,KDD),它被Fayyad 定義為:KDD 是從數(shù)據(jù)集中識別出有效的、新穎的、
潛在有用的,以及最終可理解的模式的非平凡過程[3]。
知識發(fā)現(xiàn)過程一般由以下一些步驟組成:1.數(shù)據(jù)清理;2.數(shù)據(jù)集成;3.數(shù)據(jù)選擇;
4.數(shù)據(jù)變換;5.數(shù)據(jù)挖掘;6.模式評估;7.知識表示[1]。從中可以看出,數(shù)據(jù)挖掘是知
識發(fā)現(xiàn)中一個步驟,數(shù)據(jù)挖掘的廣義觀點是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫中
的大量數(shù)據(jù)中挖掘有趣的知識的過程。相對來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計界、數(shù)據(jù)分
析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識發(fā)現(xiàn)則主要流行于人工智能和機器學(xué)習(xí)領(lǐng)域。
2.2 數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘的任務(wù)常見有以下幾種。
1.?dāng)?shù)據(jù)總結(jié):其目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。它主要關(guān)心從數(shù)據(jù)泛
化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化目前主要采用多維數(shù)據(jù)分析方法和面向?qū)傩?br />
的歸納方法。
2.相關(guān)性分析:也稱作關(guān)聯(lián)發(fā)現(xiàn)。其目的是發(fā)現(xiàn)特征之間的相互依賴關(guān)系,常用的
技術(shù)有回歸分析、關(guān)聯(lián)規(guī)則、信念網(wǎng)絡(luò)等。
3.聚類分析:它是根據(jù)數(shù)據(jù)的不同特征,將其劃分為不同的 |
|