*大語(yǔ)言模型核心概念Token是什么
Token是文本處理的最小語(yǔ)義單元。英文環(huán)境下可能是單詞/子詞/標(biāo)點(diǎn)符號(hào),中文環(huán)境下可能是單字或分詞后的詞語(yǔ)。
簡(jiǎn)單來(lái)說(shuō)就是「文字碎片」,相當(dāng)于手機(jī)流量,用越多越貴。DeepSeek幫助文檔提到:1 個(gè)中文字符 ≈ 0.6 個(gè) token。但因?yàn)椴煌P偷姆衷~不同,所以換算比例也存在差異。
*LLM為何有幻覺(jué)
主要的問(wèn)題是生成機(jī)制,基于概率采樣的解碼策略,在不斷預(yù)測(cè)下一個(gè)概率最大的字是什么 其他還有數(shù)據(jù)缺陷,認(rèn)知局限,對(duì)齊偏差造成。
簡(jiǎn)言之本質(zhì)是「學(xué)太多但沒(méi)常識(shí)」,像背了百科全書(shū)卻不懂生活的小孩 學(xué)錯(cuò)東西:網(wǎng)上錯(cuò)誤信息太多,比如它可能學(xué)到“吃牙膏能美白牙齒” 瞎猜習(xí)慣:不管你問(wèn)什么,它不敢說(shuō)不知道,硬編個(gè)答案。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者







暫無(wú)評(píng)論,快來(lái)評(píng)論吧!