2016年9月10日 星期六

[學習筆記10] 機器學習基石 - Feasibility of Learning :: Connection to Real Learning

老師提供了一個情境題給大家思考一下

如果今天我們手上有許多罐的彈珠,如圖一所示

裏面的橘色與綠色彈珠的比例不盡然相同

假設我們目前使用的假設模型h,剛好百分之百符合某一罐的分佈狀況,我們要不要採用??? 
(這時候就應該要有警覺,我們採用的標準是什麼?)


圖一、不同罐彈珠

換另一個情況來作說明,老師嘗試讓大家用另一個角度看同一個問題

如果今天150位修課的同學,同時丟五次銅板

其中一位剛好丟出五次正面,剛好跟手上的資料分佈狀況相同

請問他的擲銅板技術特別好嗎???



由圖三的Ans結果可以看到簡單的計算式

即使使用正反面出現機率相同的硬幣,當N變大的時候,150個硬幣中的其中一個硬幣

丟出5次都正面這種異端狀況,經計算發現出現的機率會 > 99% !

如果選到這種取樣資料,造成Ein與Eout差距很大,會讓我們的決策結果變得更糟!!!

我們在這邊稱呼它為BAD的取樣資料

圖二、圖一的簡化情形-銅板實驗

(再次複習霍夫丁不等式)

霍夫丁能夠保證的事情是這些取樣的結果是不好的(BAD)的機率很低

並且,在將這些情況的機率都加起來之後,這些不好的情況發生機率很小(samll)


圖三、不同實驗組BAD資料的示意圖

當如果有許多個hypotheses,我們該怎麼選擇 hypotheses h,

讓我們的演算法能夠自由的(可以想成隨機的)進行選擇(意思就是每個h都能夠被採用)?

重點在,如果A採用的 h 在D1到Dn,如果有其中一組的表現是BAD

則該hypotheses便不能夠使用

在這麼多組資料中,只有D1126使用了所有的hypotheses h1 到 hm

都沒有出現 Ein 與 Eout 相差過遠的 BAD 資料組

因此,D1126這個資料組可以被選來當作實驗資料組


圖四、資料與假設模型之間的關係

今天有很多筆不同的資料(D1到DM)與假設模型(h1到hM)之間的關係,按照聯集的觀念

把個別所有人M筆資料的機率不等式加起來,就是總BAD資料的機率不等式

已下是結合霍夫丁不等式的數學式推導,可以知道會產生BAD資料的邊界(Bound)是多少

以及與邊界和資料筆數的關係為何。

圖五、結合霍夫丁不等式之推導


--------------------------------------------------------------------------------------------

小結

經過了前面的這些努力

在假設模型庫H有限的情況,而且資料足夠的情況底下

我的Ein(取樣資料的誤差) 與 Eout(剩餘資料的誤差),在不管採用哪個hypotheses g

我的 Ein 與 Eout 都會非常接近。

如果今天我的學習演算法A選了一個假設模型g,使得Ein最小而且約等於零

透過上述統計上的假設,可以知道學習這件事情是可能的

這時終於可以開始進行學習的動作。




--------------------------------------------------------------------------------------------
後記 : 

Q : 有關於Ein 和 Eout這一切的推論都是從霍夫丁不等式出發

難道霍夫丁不等式就一定是正確的嗎? 

沒有留言:

張貼留言

/* 載入prettify的autoloader */ /* 載入JQuery */