知识体系LLM 基础多模态模型多模态模型 本文用于解释图文、视频、音频等多模态模型如何和语言模型结合。 待展开内容: VLM 的基本结构 vision encoder projector / adapter 图像 token 和视觉占位符 OCR、图表理解、视觉问答 多图输入和视频输入 多模态模型的幻觉 多模态评估 部署时 processor、chat template 和 tokenizer 的关系