*大語言模型核心概念Token是什么
Token是文本處理的最小語義單元。英文環(huán)境下可能是單詞/子詞/標(biāo)點符號,中文環(huán)境下可能是單字或分詞后的詞語。
簡單來說就是「文字碎片」,相當(dāng)于手機流量,用越多越貴。DeepSeek幫助文檔提到:1 個中文字符 ≈ 0.6 個 token。但因為不同模型的分詞不同,所以換算比例也存在差異。
*LLM為何有幻覺
主要的問題是生成機制,基于概率采樣的解碼策略,在不斷預(yù)測下一個概率最大的字是什么 其他還有數(shù)據(jù)缺陷,認知局限,對齊偏差造成。
簡言之本質(zhì)是「學(xué)太多但沒常識」,像背了百科全書卻不懂生活的小孩 學(xué)錯東西:網(wǎng)上錯誤信息太多,比如它可能學(xué)到“吃牙膏能美白牙齒” 瞎猜習(xí)慣:不管你問什么,它不敢說不知道,硬編個答案。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者







暫無評論,快來評論吧!