5秒導(dǎo)讀:本文將介紹最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法——K近鄰算法,以及如何應(yīng)用k近鄰算法完成分類任務(wù)。并一系列由淺入深講解人工智能的文章《我們一起玩AI》
今天開(kāi)始發(fā)布系列文章《我們一起玩AI》,我們將從頭講述各類人工智能算法的原理,以及這些算法能給我們帶來(lái)什么幫助,雖然這不是一件容易的事。但是某位名人曾經(jīng)說(shuō)過(guò):自己挖的大坑總要填上。
要理解人工智能,就必須有一定的數(shù)學(xué)基礎(chǔ),比如微積分,線性代數(shù),概率與統(tǒng)計(jì)等,不過(guò)別擔(dān)心——既然是玩,我們就不會(huì)把事情弄的過(guò)于復(fù)雜,關(guān)于數(shù)學(xué),我們只講述最最必要的內(nèi)容,并在再講述過(guò)程中會(huì)犧牲一定嚴(yán)謹(jǐn)性,以便易理解。
傳說(shuō)中換一個(gè)燈泡需要3個(gè)數(shù)學(xué)家,一個(gè)證明燈泡可換,一個(gè)證明可換的唯一性,最后一個(gè)負(fù)責(zé)推到一個(gè)算法來(lái)扭螺絲。
再次聲明,別擔(dān)心,我們是鄙視鏈最底端的工程師!我們不搞證明,我們就是干!Just For Fun!
言歸正傳,開(kāi)始今天的主題—— k近鄰算法
古人云:“近朱者赤近墨者黑”,k近鄰算法曰:離哪一群比較近就算作哪一類!
假設(shè)下圖中左下角的點(diǎn)為B類,右上角的點(diǎn)為A類那么點(diǎn)E屬于哪一類?當(dāng)然!B類,為啥?距離近啊!沒(méi)錯(cuò)這就是我們的k近鄰算法!
再比如動(dòng)作電影普遍具有50次以上槍?xiě)?zhàn)鏡頭,愛(ài)情電影普遍具有50次以上kiss鏡頭,電影A有76次槍?xiě)?zhàn)2次kiss鏡頭,理所當(dāng)然電影A是動(dòng)作片,而電影V有66次槍?xiě)?zhàn),62次Kiss電影V是?ASRay曰:
k近鄰將數(shù)據(jù)繪制在笛卡爾中,以上述的電影分類為例,橫坐標(biāo)可以代表槍?xiě)?zhàn)鏡頭出現(xiàn)的次數(shù),縱坐標(biāo)則為kiss鏡頭出現(xiàn)的次數(shù)。
我們把比較集中的一簇表示一個(gè)分類(該過(guò)程可由K均值聚類完成)。
當(dāng)需要判斷一個(gè)未知點(diǎn)X的分類時(shí),1 計(jì)算點(diǎn)X到所有點(diǎn)的距離并排序。2 找出其中距離X最近的K個(gè)點(diǎn)。3 判斷,如果前K個(gè)點(diǎn)中A類最多,那么X也為A類。
當(dāng)然現(xiàn)實(shí)世界中的數(shù)據(jù),絕對(duì)不止2個(gè)維度那么簡(jiǎn)單,比如一個(gè)人每天寫(xiě)多少字,抽多少煙,玩多少分鐘游戲,走多少步路,吃幾碗飯.........不過(guò)沒(méi)關(guān)系一一寫(xiě)出來(lái)就行,比如x=(X1,X2,X3....Xn),Y=(Y1,Y2,Y3....Yn),如果我們?cè)俣xX與Y的內(nèi)積
那么這個(gè)N維空間就稱為歐幾里得空間。
內(nèi)積能有什么用呢?假設(shè)X為你的自身?xiàng)l件,Y為每個(gè)條件在女神心中的重要程度,那么X與Y的內(nèi)積直接決定了你追到女神的概率(內(nèi)積越大,女神喜歡你的概率越高)。
為了女神,我們應(yīng)該學(xué)會(huì)如何算距離,不過(guò)算距離的故事需要從1條人命說(shuō)起,畢達(dá)哥拉斯發(fā)現(xiàn)了勾股定理(其實(shí)勾股定理更通用的名字是畢達(dá)哥拉斯定理),不過(guò)當(dāng)他的學(xué)術(shù)問(wèn)他一個(gè)長(zhǎng)為1的正方形對(duì)角線多長(zhǎng)時(shí),畢達(dá)哥拉斯的表情事這樣的
然后它毫不猶豫的把該學(xué)生扔進(jìn)了海里?。ㄗⅲ寒呥_(dá)哥拉斯想想所有數(shù)都可以表示為兩個(gè)整數(shù)之比,但是根號(hào)2是無(wú)理數(shù),此為第一次數(shù)學(xué)危機(jī))這時(shí)眾人的表情是這樣的
說(shuō)完了人命的故事回到正題,勾股定理定理告訴我們:勾三股四弦五,那么平面上兩點(diǎn)的距離等于:
而把平面推廣一下,歐幾里得空間中距離等于,姑且就把他看作勾股定理一次次的套吧!
先用算個(gè)距離,再根據(jù)從近朱者赤近墨者黑,判斷分類,最后取一個(gè)不明覺(jué)厲的名字K近鄰算法(k-Nearest Neighbor),嗯這就是今天的全部?jī)?nèi)容。
當(dāng)然關(guān)于歐幾里得空間還有很多內(nèi)容,比如什么:施瓦茨不等式,cantor閉區(qū)域套定理,cauchy收斂原理,Bolzano-Weierstrass 定理....但是管他的,誰(shuí)在乎?
關(guān)注我們,獲取更多有關(guān) AI與大數(shù)據(jù)的信息。ASRay明日麗科技——科技助力企業(yè)發(fā)展,攜手共創(chuàng)更美明天!





暫無(wú)評(píng)論,快來(lái)評(píng)論吧!