圖像數(shù)據(jù)挖掘在SARS輔助診斷中的應(yīng)用
萬壽紅,李 曦,龔育昌,謝鉉洋
(中國科學(xué)技術(shù)大學(xué)計算機科學(xué)技術(shù)系,安徽省計算與通訊軟件重點實驗室,合肥 230027)
摘 要:嚴重急性呼吸道綜合癥(SARS),又稱“非典型肺炎”,是目前人類面臨的一種嚴重危害生命和健康的新發(fā)傳染病。利用PACS系統(tǒng)中的胸部數(shù)字X光(DX)正位圖像,采用圖像數(shù)據(jù)挖掘技術(shù),設(shè)計并實現(xiàn)了SARS計算機輔助診斷系統(tǒng)。經(jīng)過數(shù)據(jù)清理定位DX肺部圖像的感興趣區(qū)域,分割出雙肺區(qū)域,提取特征參數(shù),構(gòu)造決策樹,實現(xiàn)對SARS患者和一般肺炎胸部DX正位圖像的分類。實驗結(jié)果表明,檢測SARS圖像正確率達到70%以上。
關(guān)鍵詞:圖像數(shù)據(jù)挖掘;計算機輔助診斷;SARS;圖像分割;決策樹
Application of Image Data Mining to
Computer Aided Diagnosis SARS
WAN Shouhong, LI Xi, GONGYuchang, XIE Xuanyang
(Department of Computer Sci. & Tech., University of Sci. & Tech.,
Anhui Province Key Laboratory of Software in Computing and Communication, Hefei 230027)
【Abstract】Severe acute respiratory syndrome (SARS), called “typical Pneumonia”in China, is a newly occurred fast transmittable infectiousdisease which badly endangers human’s life and health. This paper designs and realizes a computer aided diagnosis SARS based on image datamining techniques for digital X-Ray images in picture archiving and communication system (PACS). First, lung region of interest is located afterdata cleaning. Then lung region segmentation and feature parameters extraction are performed. The decision tree is constructed for discrimination ofSARS and “typical Pneumonia”. The experiment result shows that more than 70% SARS cases can be detected.
【Key words】Image data mining; Computer aided diagnosis(CAD); Severe acute respiratory syndrome(SARS); Image segmentation; Decision tree
嚴重急性呼吸道綜合癥(Severe Acute Respiratory Syn-
drome, SARS),又稱“非典型肺炎”,是目前人類面臨的一種嚴重危害生命和健康的新傳染病。由于受到醫(yī)生經(jīng)驗、水平和主觀因素等影響,診斷的正確性與效率仍不利于SARS的診療與疫情控制,因此迫切需要借助有效的計算機輔助診斷(computer aided diagnosis, CAD) [1]方法,以快速、準確地發(fā)現(xiàn)與診斷SARS疑似病例。當(dāng)一個患者有胸部的疾病,如肺結(jié)核、肺癌以及SARS等疾病時,其胸部數(shù)字X光(DX)正位圖像上會產(chǎn)生肺部節(jié)點,紋理異常等癥狀。研究表明胸部DX正位圖像對SARS的診斷起著決定性的作用[1,2]。本文根據(jù)廣州醫(yī)學(xué)院第二附屬醫(yī)院PACS數(shù)據(jù)中的大量胸部DX圖像,結(jié)合醫(yī)學(xué)專家的經(jīng)驗知識,利用圖像數(shù)據(jù)挖掘技術(shù)[3,4],設(shè)計并實現(xiàn)了SARS計算機輔助診斷系統(tǒng),為醫(yī)生的輔助診斷提供依據(jù),提高SARS疑似病例及時確診的準確率。
row2
row1
col1
col2
sl
該系統(tǒng)的圖像數(shù)據(jù)挖掘過程包括數(shù)據(jù)清理、肺部區(qū)域分割、特征提取、數(shù)據(jù)挖掘4個步驟。
1 數(shù)據(jù)清理
數(shù)據(jù)清理是從PACS數(shù)據(jù)庫中過濾出胸部DX正位圖,并定位肺部感興趣區(qū)域(ROI)的過程。PACS系統(tǒng)中存有多種類型圖像,包括CT、MR等非DX圖像,它們很少有大型圖像數(shù)據(jù),在圖像的大小上與DX有很大區(qū)別。所以首先采用圖像分辨率作為衡量指標(biāo)從數(shù)據(jù)庫中分離出DX圖像。
1.1 DX正位圖的選取
胸部DX圖像包括正位圖、側(cè)位圖兩種,而我們所關(guān)心的是正位圖。觀察發(fā)現(xiàn),正位圖的整體亮度及左右邊界均比側(cè)位圖亮,所以對每幅圖像選取平均灰度、圖像最左和最右列的平均值及標(biāo)準方差這5個特征參數(shù)形成描述向量,構(gòu)造訓(xùn)練集,用C4.5算法建立決策樹。對561幅胸部DX圖像進行分類,結(jié)果表明只有5幅圖像分類錯誤,正確率達到99.16%。整個的判定過程實際上只使用了平均灰度、圖像最左列的標(biāo)準方差、最右列的平均值3個決策變量。
1.2 ROI 定位
圖1 DX胸片的肺部ROI邊界
由于DX肺部圖像中包含了一些與診斷無關(guān)的信息,而我們感興趣的僅僅是圖像中的肺部區(qū)域,通過對感興趣區(qū)域(ROI)自動定位,過濾掉無關(guān)信息,從而引導(dǎo)后續(xù)算法將“注
基金項目:廣州醫(yī)學(xué)院第二附屬醫(yī)院資助項目“醫(yī)院信息綜合管理系統(tǒng)”
作者簡介:萬壽紅(1971-),女,碩士、講師,主研方向:計算機視覺,圖像處理;李曦,副教授;龔育昌,教授、博導(dǎo);謝鉉洋,博士生
收稿日期:2006-02-02 E-mail:wansh@ustc.edu.cn
意力”集中在ROI,進一步提高圖像分析處理速度及后繼邊緣檢測的正確率。一個肺部區(qū)域由row1,row2,col1,col2這4個參數(shù)決定,分別表示肺部區(qū)域的上邊界、下邊界、左邊界和右邊界,如圖1所示。
1.3 列邊界的提取
分析圖像的統(tǒng)計特性發(fā)現(xiàn),肺葉處灰度值偏小,而圖像從左右列邊界處經(jīng)過較亮的軟組織帶進入左右肺葉。圖像的列均值曲線(如圖2)在兩側(cè)各形成一個波峰,曲線中間突起的波峰則表示脊椎中軸線位置SL。由于噪聲的影響,往往在達到峰值前已與肋膈角相切,因此利用列均值的均值MM(Mean of Means),即圖中虛線所示,按一定比例s做水平線與列均值曲線相交,并取最左和最右交點col1’和col2’作為列邊界Col1和Col2。試驗中選取s=0.9得到了較好的結(jié)果。12 000 8 000 4 000 colSTD曲線SL col1’ MM col2’ MEAN曲線0 400 800 1 200 1 600
圖2 列均值曲線
1.4 行邊界的提取
行邊界的行均值無明顯特征?紤]到行上邊界處于雙肩部位,對稱性在圖像中沿SL位置呈對稱分布。而偏度(skewness)恰好描述了一組數(shù)據(jù)圍繞采樣平均值的不對稱程度。為此采用圖像的行偏度作為衡量標(biāo)準求出行上邊界row1。設(shè)圖像某行數(shù)據(jù)為
1(,...,)nxx=x
則偏度skew定義為33()XXExskewμσ−=
其中,Xσ表示標(biāo)準方差,Xμ表示平均值,E表示數(shù)學(xué)期望。偏度skew等于0的位置就是肺部行上界row1所在位置。
肺部區(qū)域行下界多位于胸腔與腹腔結(jié)合部位,影像特征復(fù)雜,偏度值無明顯特征?紤]到肺部區(qū)域滿足一定的寬高比,用下面的公式計算行下界: 2221ColColRowRowWH−=+
其中,WH表示肺部區(qū)域?qū)捀弑戎怠H是經(jīng)驗參數(shù),通過多幅DX胸部正位圖象的肺部ROI區(qū)域的統(tǒng)計分析,結(jié)合放射科專家的先驗知識得到。
2 肺部區(qū)域分割
如何快速準確地檢測雙肺邊緣輪廓,是計算機輔助診斷的關(guān)鍵問題。DX圖象具有邊緣不清晰、噪聲大等特點,盡管常規(guī)的邊緣檢測方法(sobel、Prewitt﹑kirsch等)運算比較簡單,但抗干擾能力較差,在高分辨率情況下會放大不必要的細節(jié),導(dǎo)致不合理的輪廓;在低分辨率情況下會丟失圖像的部分邊緣信息,產(chǎn)生失真和輪廓漏檢。而活動輪廓模型(Active Shape Model, ASM)[5,6] 算法雖然對圖像的局部模糊不敏感,但需要預(yù)先通過大批樣本進行訓(xùn)練來建立肺部輪廓線的統(tǒng)計模型,算法過于復(fù)雜。
本文 |
|