Llama3-V(斯坦福AI团队发布的大语言模型)

Llama3-V，是斯坦福一AI团队发布的全新开源视觉大语言模型，基于Llama38B和siglip-so400m构建，被业界誉为最先进的视觉大语言模型之一，于2024年5月29日发布。

2024年6月，Llama3-V开源模型被证实套壳抄袭中国清华大学&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事，在网络和媒体上引发热议。6月4日斯坦福Llama3-V团队的两位作者Siddharth Sharma和Aksh Garg在X上就这一学术不端行为对面壁MiniCPM团队正式道歉，表示会将Llama3-V模型悉数撤下。

发展历程

2024年5月29日，斯坦福一AI团队发布了一个名为Llama3-V的多模态大模型，宣称只需500美元就可训练出一个性能可与GPT4-V媲美的SOTA多模态大模型。Llama3-V已经在Hugging Face平台和GitHub上发布。

关键特点

Llama3-V的关键特点包括：性能上优于LLaVA约10-20%，训练成本控制在500美元以下，并且能够与GPT4-V、Gemini Ultra和Claude3等顶尖模型相媲美。此外，Llama3-V的权重、训练和推理代码将全部开源，鼓励更多开发者参与到模型的开发和优化中。

这款模型在性能上超越了以往的同类产品，更以其较小的模型体积实现了与大型模型相媲美的性能，具备快速的本地推理能力，极大地方便了用户的操作。

参考资料

Llama3-V：全新开源视觉大语言模型正式亮相.腾讯网.2024-06-05

斯坦福AI团队回应抄袭面壁智能：Llama3-V模型将悉数撤下.新浪财经-今日头条.2024-06-05

承认、道歉、删除！斯坦福AI团队抄袭中国大模型.每日经济新闻-今日头条.2024-06-05

Llama3-V

发展历程

关键特点

相关事件

参考资料