我們一起玩AI 3——線性回歸與工資預(yù)測(cè)
明日麗ASRay
發(fā)布于 云南 2019-09-09 · 2.5w瀏覽 3贊

5秒導(dǎo)讀:本文將敘述機(jī)器學(xué)習(xí)經(jīng)典算法——線性回歸,并講述如何將其用于工資,房?jī)r(jià),銷量等預(yù)測(cè)

 《我們一起玩AI》其實(shí)是一些列技術(shù)性脫團(tuán)指南,今天的故事從A君說(shuō)起,A君的女神開支不小,為了養(yǎng)活女神A君決定跳槽找一份更高工資的工作


已知A君身強(qiáng)體壯,健步如飛,6年工作經(jīng)驗(yàn),精通8門技能,能連續(xù)加班100小時(shí)不休息,開會(huì)5小時(shí)不喝水,帶過(guò)66個(gè)項(xiàng)目,揍過(guò)15個(gè)產(chǎn)品經(jīng)理,那么A君的工資應(yīng)該是多少?

結(jié)果預(yù)測(cè),自古以來(lái)就有2種辦法,第一種,找個(gè)神棍算一卦,第二種,通過(guò)數(shù)據(jù)說(shuō)話!現(xiàn)在,我們直接從第二種說(shuō)起,首先我們可以通過(guò)數(shù)據(jù)挖掘收集相關(guān)行業(yè)的行情,為了簡(jiǎn)化講解,我們先從單個(gè)維度(工作經(jīng)驗(yàn))說(shuō)起。用X軸表示工作經(jīng)驗(yàn),Y軸表示工資,并將收集到的數(shù)據(jù)畫在笛卡爾坐標(biāo)中。

從圖中不難看出隨著工作年限的提高,工資也會(huì)增長(zhǎng),現(xiàn)在我們畫一條直線(y=kx+b) 穿過(guò)這些點(diǎn)

假如這條直線距離所有點(diǎn)的距離足夠近,那么這條直線在x處的y值就是A君工資的預(yù)測(cè)值!

當(dāng)然,我們需要的指標(biāo)不止一個(gè),而是多個(gè),這時(shí)候向量的點(diǎn)乘又雙叒叕來(lái)了!


此時(shí)工資等于

 (等于將向量中下標(biāo)一樣的數(shù)分別相乘,再全部加起來(lái))


請(qǐng)務(wù)必習(xí)慣一下這些數(shù)學(xué)符號(hào),久而久之你會(huì)發(fā)現(xiàn),他們其實(shí)非常簡(jiǎn)潔實(shí)用,并且其實(shí)簡(jiǎn)潔實(shí)用與否并不重要!更關(guān)鍵的是——逼格才是一輩子的!


我們現(xiàn)在需要根據(jù)已知的數(shù)據(jù),找到能夠預(yù)測(cè)結(jié)果的向量θ,回憶一下,θ需要使得預(yù)測(cè)的工資最接近于真實(shí)(否則和神棍有什么區(qū)別?),也就是直線到所有真實(shí)點(diǎn)的距離平均距離最近,為了計(jì)算平均距離,根據(jù)歐幾里得空間距離公式,我們不難寫下



其實(shí)也就是計(jì)算藍(lán)線的平均長(zhǎng)度

上述的J我們將其稱作線性回歸的“代價(jià)函數(shù)”,由于x(i),y(i)均為已知,所以J的自變量是θ,因變量是直線到點(diǎn)的平均距離。

OK,總結(jié)一下,要預(yù)測(cè)工資,我們需要一個(gè)向量θ,使θ與A君各項(xiàng)條件寫成的向量X的點(diǎn)乘結(jié)果,最大程度符合收集到的真實(shí)數(shù)據(jù),我們用所有真實(shí)工資減去θ點(diǎn)乘真實(shí)條件數(shù)據(jù)平方的平均數(shù)(也就是上圖藍(lán)線的平均長(zhǎng)度)作為代價(jià)函數(shù),這時(shí)候能讓代價(jià)函數(shù)取到最小值的θ,就是我們眾里尋他千百度的結(jié)果!有了它我們就能預(yù)測(cè)A君的工資。從此


至于這個(gè)最小值究竟如何得到,待下期講述極限,導(dǎo)數(shù),偏導(dǎo)數(shù)后,我們?cè)俾務(wù)摗?/span>

關(guān)注我們,獲取更多有關(guān) AI與大數(shù)據(jù)的信息。ASRay明日麗科技——科技助力企業(yè)發(fā)展,攜手共創(chuàng)更美明天!



明日麗ASRay
我們一起玩AI
瀏覽 2.5w
3
相關(guān)推薦
最新評(píng)論
贊過(guò)的人 3
評(píng)論加載中...

暫無(wú)評(píng)論,快來(lái)評(píng)論吧!