這堂課索要探討的內容需要仔細思考
筆記7的時候我們開始探討了一個問題就是
請問 : 是不是所有的問題都能夠應用機器學習呢 ?
也就是本堂機器學習課程中第一個想要分享的部分 : When Can Machine Learning Learn ?
與前一堂 Feasibility of Learning :: Learning is Impossible? 互相呼應
拿真實世界的應用來思考
假如我們擁有手上有海量的資料
我們從這些資料裡面隨機抽取出部分資料(即所謂的取樣 Sampling)
然後看看這些取樣後的資料
是不是就能夠代表這群資料母體的資料分佈比例,或是特定資料出現的機率呢?
圖一、如何知道橘球的出現機率 ?
為了要能夠了解上述的問題
我們可以從統計學的角度切入
一個是假設母體的狀況,另一個是取樣之後的結果
我們是不是能夠想方法找到接近母體狀況的取樣結果呢 ?
(要小心,如果只相信取樣一次的結果是十分危險的,所以多次取樣是必要的)
圖二、從機率與統計的角度切入
能不能夠從我們手上取樣的彈珠資料(in-sample υ)
推估剩餘罐子中的橘色彈珠分佈情形(out-of-sample μ)呢 ?
這題的答案可以是 No! 也能是 Yes!,為什麼呢 ?
這要取決於剩餘的彈珠分佈狀況是不是跟我們手上取樣出來的彈珠分佈狀況很接近!
圖三、nu與mu
如果今天我的取樣的量夠大(N夠大)的情況下,我的μ(剩餘罐中的橘彈珠的出現機率) 跟
υ(取樣的橘彈珠的出現機率)彼此數值會很接近
有ㄧ個數學式能夠說明這個現像,稱作霍夫丁不等式
圖四、霍夫丁不等式
但是要能夠說 in-sample υ 和 out-of-sample μ 很接近,就必須要冒這個結果只能是大概正確
(Probably approximately correct,PAC)的風險,畢竟這個只是統計上的結果,未必真的能夠
完全代表真實情況 !
圖五、PAC
有了 PAC,那麼,在足夠大的取樣資料個數N的情況底下
我們可以從 υ 在PAC的條件下推論出未知的 μ
圖六、PAC與霍夫丁
補充資料 :
1. [台大机器学习笔记整理]机器学习问题与算法的基本分类&由霍夫丁不等式论证机器学习的可行性
2. 机器学习基石笔记4——在何时可以使用机器学习(4)
沒有留言:
張貼留言