2017年3月17日 星期五

[ML] Coursera- Stanford University - Machine Learning - Week1 Linear Regression(線性迴歸)

授課教師是史丹佛大學大名鼎鼎的教授Andrew Ng

同時也是Coursera的創辦人與百度目前負責人工智慧項目的大頭之一

第一週教授的是第一個機器學習的模型 - Linear Regression(線性迴歸)

線性回歸的概念其實在高中的時候其實在統計的章節有教過

如果以下圖的二維平面為例,上面分佈了數個散佈的資料點,如何能夠找到代表這些資料的表達模型?



線性回歸就是想要回答這個問題

線性回歸想要找到最能夠表達這些資料點的直線

誤差(error)

透過嘗試不同的直線,我們計算理論直線上的數值與實際資料點,兩者差距值就是所謂的誤差 (真實世界:理想與現實的差距)


誤差的平方(square error)

上述的誤差算出來的數值,可能有正有負,但是誤差的正負號不管如何,都是誤差(不管黑貓白貓,能夠抓老鼠的都是好貓)

因此去掉正負,最能夠衡量真正的誤差。我們可以透過平方這件事情來做到,同時也可以拉開不同數值之間的差距

例如,正負1的平方是1,正負2的平方是4,正負三的平方是9,4和1之間的差距是3,9和4之間的差距是5,差距之間能夠拉大,能夠顯現出該項誤差代表的份量

誤差的平方和(Sum of square error)

如果要衡量兩條線(模型)哪一條最能夠符合我們處理的數據,最點單的想法就是把上述所有資料點的誤差平方加總起來,取誤差總值最小的線,就是最符合我們需求的結果


這個誤差的平方和,我們可以視作一個名詞叫作成本函數 (cost function)

這個概念的字面意思相當直觀,就是選取讓成本最低的直線,就是我們想要的答案

沒有留言:

張貼留言

/* 載入prettify的autoloader */ /* 載入JQuery */