2016年9月11日 星期日

[學習筆記11] 機器學習基石 - Training versus Testing :: Recap and Preview

在前面的假設條件是假設模型H (Hypotheses set H)是有限

但是接下來可能會遇H是無限的情況,該怎麼辦 ? 

圖一、複習第一部分的學習流程

別急,之後會慢慢解決這個問題

圖二顯示出機器學習四大部分中第一部分探討的兩個核心問題

1. 我們如何能夠確保Eout 能夠接近 Ein ??? 

重要性 => 確保樣本的一致性,取樣後的部分資料 與 剩餘資料 資料分佈是相同的

2. Ein 是否足夠小 ???

重要性 => 從我取樣的樣本中,套用其中一組合適的h,學習出來的準確性夠高,錯誤率夠小


圖二、兩個核心問題

M的樣本多寡 就會是一個關鍵點,如果M取得太小,可以選擇的h就很少

M若取得太大,由霍夫丁不等式可以知道,BAD資料發生的機率就變大了

Q : 那M到底該怎麼選擇 ?

圖三、M的抉擇

所以我們的目標就是要找到一個有限數量值的mH,

使得霍夫丁不等式上限不會太大,即不要讓壞事發生的機率變大

否則無窮大的M會讓壞事發生機率變成無窮大...

圖四、待完成事項

沒有留言:

張貼留言

/* 載入prettify的autoloader */ /* 載入JQuery */