跳到主要内容

多模态模型

本文用于解释图文、视频、音频等多模态模型如何和语言模型结合。

待展开内容:

  • VLM 的基本结构
  • vision encoder
  • projector / adapter
  • 图像 token 和视觉占位符
  • OCR、图表理解、视觉问答
  • 多图输入和视频输入
  • 多模态模型的幻觉
  • 多模态评估
  • 部署时 processor、chat template 和 tokenizer 的关系