我們一起玩AI(1)—— k近鄰算法與電影分類
明日麗ASRay
發(fā)布于 云南 2019-09-02 · 2.6w瀏覽 1回復 2贊

5秒導讀:本文將介紹最簡單的機器學習算法——K近鄰算法,以及如何應(yīng)用k近鄰算法完成分類任務(wù)。并一系列由淺入深講解人工智能的文章《我們一起玩AI


今天開始發(fā)布系列文章《我們一起玩AI》,我們將從頭講述各類人工智能算法的原理,以及這些算法能給我們帶來什么幫助,雖然這不是一件容易的事。但是某位名人曾經(jīng)說過:自己挖的大坑總要填上。


要理解人工智能,就必須有一定的數(shù)學基礎(chǔ),比如微積分,線性代數(shù),概率與統(tǒng)計等,不過別擔心——既然是玩,我們就不會把事情弄的過于復雜,關(guān)于數(shù)學,我們只講述最最必要的內(nèi)容,并在再講述過程中會犧牲一定嚴謹性,以便易理解。


傳說中換一個燈泡需要3個數(shù)學家,一個證明燈泡可換,一個證明可換的唯一性,最后一個負責推到一個算法來扭螺絲。


再次聲明,別擔心,我們是鄙視鏈最底端的工程師!我們不搞證明,我們就是干!Just For Fun!

言歸正傳,開始今天的主題—— k近鄰算法

古人云:“近朱者赤近墨者黑”,k近鄰算法曰:離哪一群比較近就算作哪一類!

假設(shè)下圖中左下角的點為B類,右上角的點為A類那么點E屬于哪一類?當然!B類,為啥?距離近??!沒錯這就是我們的k近鄰算法!


再比如動作電影普遍具有50次以上槍戰(zhàn)鏡頭,愛情電影普遍具有50次以上kiss鏡頭,電影A76次槍戰(zhàn)2kiss鏡頭,理所當然電影A是動作片,而電影V66次槍戰(zhàn),62Kiss電影V是?ASRay曰:


  k近鄰將數(shù)據(jù)繪制在笛卡爾中,以上述的電影分類為例,橫坐標可以代表槍戰(zhàn)鏡頭出現(xiàn)的次數(shù),縱坐標則為kiss鏡頭出現(xiàn)的次數(shù)。

  我們把比較集中的一簇表示一個分類(該過程可由K均值聚類完成)。

  當需要判斷一個未知點X的分類時,1 計算點X到所有點的距離并排序。2 找出其中距離X最近的K個點。3 判斷,如果前K個點中A類最多,那么X也為A類。

  當然現(xiàn)實世界中的數(shù)據(jù),絕對不止2個維度那么簡單,比如一個人每天寫多少字,抽多少煙,玩多少分鐘游戲,走多少步路,吃幾碗飯.........不過沒關(guān)系一一寫出來就行,比如x=(X1,X2,X3....Xn),Y=(Y1,Y2,Y3....Yn),如果我們再定義X與Y的內(nèi)積


那么這個N維空間就稱為歐幾里得空間。

內(nèi)積能有什么用呢?假設(shè)X為你的自身條件,Y為每個條件在女神心中的重要程度,那么XY的內(nèi)積直接決定了你追到女神的概率(內(nèi)積越大,女神喜歡你的概率越高)。



為了女神,我們應(yīng)該學會如何算距離,不過算距離的故事需要從1條人命說起,畢達哥拉斯發(fā)現(xiàn)了勾股定理(其實勾股定理更通用的名字是畢達哥拉斯定理),不過當他的學術(shù)問他一個長為1的正方形對角線多長時,畢達哥拉斯的表情事這樣的

然后它毫不猶豫的把該學生扔進了海里?。ㄗⅲ寒呥_哥拉斯想想所有數(shù)都可以表示為兩個整數(shù)之比,但是根號2是無理數(shù),此為第一次數(shù)學危機)這時眾人的表情是這樣的


說完了人命的故事回到正題,勾股定理定理告訴我們:勾三股四弦五,那么平面上兩點的距離等于:


而把平面推廣一下,歐幾里得空間中距離等于,姑且就把他看作勾股定理一次次的套吧!


  先用算個距離,再根據(jù)從近朱者赤近墨者黑,判斷分類,最后取一個不明覺厲的名字K近鄰算法(k-Nearest Neighbor),嗯這就是今天的全部內(nèi)容。

  當然關(guān)于歐幾里得空間還有很多內(nèi)容,比如什么:施瓦茨不等式,cantor閉區(qū)域套定理,cauchy收斂原理,Bolzano-Weierstrass 定理....但是管他的,誰在乎?

關(guān)注我們,獲取更多有關(guān) AI與大數(shù)據(jù)的信息。ASRay明日麗科技——科技助力企業(yè)發(fā)展,攜手共創(chuàng)更美明天!



明日麗ASRay
我們一起玩AI
瀏覽 2.6w
2
相關(guān)推薦
最新評論 1
贊過的人 2
評論加載中...

暫無評論,快來評論吧!