多模态大语言模型赋能教学应用：问题定位、技术根源剖析与融合范式

打印
收藏

收藏成功

微博 QQ空间微信

打开文本图片集

0 引言

多模态大语言模型作为一种大语言模型，其通过整合非文本模态以完成各类多模态任务[1]。与传统以文字生成为主的大型语言模型不同，多模态大型语言模型具备对文字、图像、视频、声音以及复合文档进行阐释与生成的能力。以Google的Gemini模型为例，它能够实现文字、图片、音频和视频的训练与生成。随着OpenAI的GPT-4完成多模态训练，多模态大语言模型被视作人工智能领域的一个重要里程碑，有望在医疗保健、教育等各行业引发重大变革。（剩余7303字）

试读结束

购买全文5.00元下一篇基于BOPPPS的“数据结构”图遍历教学研究

无线互联科技

2025年24期

¥24.00/本