“词元”是啥

  • 打印
  • 收藏
收藏成功


打开文本图片集

最直接的答案,Token,也就是“词元”,是大模型处理语言时使用的基本单位。它不是整句话,也不总是一个完整的词,更不等于字数。人类看见的是一段表达完整的文字,模型接收到的却是一连串被切开的信息小块。模型不会像人那样“直接读懂一句话”,它需要先把语言拆分,再把这些拆分后的部分转成数字,最后才能继续计算。(剩余680字)

monitor