需要金幣:![]() ![]() |
資料包括:完整論文 | ![]() |
![]() |
轉換比率:金額 X 10=金幣數量, 例100元=1000金幣 | 論文字數:10247 | ![]() | |
折扣與優惠:團購最低可5折優惠 - 了解詳情 | 論文格式:Word格式(*.doc) | ![]() |
摘要:近年來,糖尿病的發病率年年攀升,糖尿病引發的各種并發癥更是給患者帶來無盡的痛苦。因此,機器學習糖尿病數據,預測患者今后的發病趨勢,對糖尿病的預防治療有著重要的意義。 機器學習糖尿病數據分析,收集患者近五年的醫療記錄,匯聚成糖尿病數據集。本數據集包含了768組數據,確定引起糖尿病的八個可能因素:懷孕次數,血漿葡萄糖濃度,舒張壓,三頭肌皮褶厚度,2小時血清胰島素,體重指數,糖尿病譜系功能,年齡。本數據集擁有一個因變量,患病與否。 對糖尿病數據集,進行數據處理,包括完成數據清洗、數據分類、特征縮放等數據預處理。分別使用邏輯回歸,樸素貝葉斯和隨機森林創建學習模型,進行模型預測,評價機器學習結果。 繪制三種算法的準確率折線圖比較算法學習效果,在非隨機挑選驗證集的情況下,,邏輯回歸算法的準確率一直高于另外兩種算法,且當驗證集所占比例為5%時,該算法預測準確率達到92%。在隨機挑選驗證集的情況下,當驗證集所占比例為15%,20%,25%時,邏輯回歸算法準確率均高于其他算法,當驗證集占5%時,樸素貝葉斯算法相對比較好。 關鍵詞:機器學習 學習模型 模型預測 邏輯回歸 樸素貝葉斯 隨機森林
目錄 摘要 Abstract 1 緒論-1 1.1 課題研究背景及意義-1 1.2 課題研究現狀及趨勢-1 1.3 論文主要內容-2 2 數據預處理-4 2.1 數據集整理-4 2.2 標準庫及數據庫的導入-4 2.2.1 標準庫簡介-5 2.2.2 導入標準庫-5 2.2.3 導入數據集-5 2.3 訓練集、驗證集劃分-7 2.4 特征縮放-8 2.5 構建混淆矩陣-10 2.6 本章小結-10 3 機器學習分類算法部分-11 3.1 邏輯回歸算法-11 3.1.1 Sigmoid函數-11 3.1.2 邏輯回歸創建學習模型-11 3.2 樸素貝葉斯算法-12 3.2.1 貝葉斯定理-12 3.2.2 樸素貝葉斯分類器原理簡介-13 3.2.3 樸素貝葉斯創建學習模型-14 3.3 隨機森林算法-15 3.3.1 決策樹-15 3.3.2 隨機森林算法-16 3.3.3 隨機森林創建學習模型-17 3.4本章小結-18 4 機器學習效果對比分析-19 4.1 非隨機挑選驗證集-19 4.2 隨機挑選驗證集-22 5 總結-26 參考文獻-27 致謝-28 附錄一-29 附錄二-32 |