2016年9月11日 星期日

[學習筆記12] 機器學習基石 - Training versus Testing :: Recap and Preview

[Youtube 影片19 Training versus Testing :: Recap and Preview]

Where Did M come from ? 

我們今天把所有不好事件的機率加總起來之後,就可以得到不好事件機率的上限

但是如果今天 hypotheses個數 M 無窮大的話該怎麼辦 ? 

(總不能讓不好事件機率P[BAD]的最大發生機率變成無窮大吧 ? )

圖一、不好機率事件的聯集(Union Bond)


Where Did Uniform Bound Fail

根據Perceptron分類方法中的情形,若某一條線與另一條線位置與斜率皆很接近

它們的分離狀況很接近

因此如果採用這兩個接近的預測模型h1與h2,它們的 Ein 與 Eout也會很接近

而它們錯誤的情形就像圖二中,右上角的圓形一般,它們的錯誤範圍重複疊合的區域很大

所以,壞事情發生的機率並不是無窮迭加上去,而是像圓圈的疊合圖

因此,我們要想辦法找出疊加的區域來進行後續的分析

圖二、不同不好事件的重疊示意圖

第一步 問題分類

而找到疊加的區域的第一步就是把看似無窮多的事件中,進行分類的動作

首先,如果是有無窮多的Perceptron,就有無窮多個線能夠對資料點進行分類

那如果只有一個資料點,這些線只有兩種分類方式 : 是或是不是

即2的一次方次,即2種結果分類結果


圖二、一個資料點的分類

第二步 不同資料個數進行種類分類

若有兩個資料點,則有2的2次方次,即4種結果


圖三、兩個資料點的分類

那有三個資料點的話,是不是都是2的三次方,即8種有效的結果呢?

看看下面圖四的例子就知道,如果我今天有三個資料點排在同一條直線的話

我如果用線性的Perceptron分類器,有其中兩個結果便無法得到

(非線性分類器現在暫時不談)

所以只有6種可行的分類結果

圖四、三個資料點的情形

同樣的情形也會發生在四個資料點的分類上,只有14種是有效結果

圖五、四個資料點的情形

第三步 找到有效的數字N (effective N)

從前面的結果可以知道,實際能夠得到的結果比理論的還要小 (Ex. 6 < 2的三次方 = 8 )

如果今天這個有效的數字N (effective N) 比2的N次方小很多

同時能夠讓exp() 這項變得很小

那麼壞事發生的最大機率就變小了!

而這個N就能夠

1. 取代可能很大的hypotheses個數 M

同時

2. N 遠小於分類種類最大上限個數,即2的N次方 (N筆資料,就有2的N次方種分類可能)

圖六、有效數字N


沒有留言:

張貼留言

/* 載入prettify的autoloader */ /* 載入JQuery */