Llama3-V,是斯坦福一AI团队发布的全新开源视觉大语言模型,基于Llama38B和siglip-so400m构建,被业界誉为最先进的视觉大语言模型之一,于2024年5月29日发布。
2024年6月,Llama3-V开源模型被证实套壳抄袭中国清华大学&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。6月4日斯坦福Llama3-V团队的两位作者Siddharth Sharma和Aksh Garg在X上就这一学术不端行为对面壁MiniCPM团队正式道歉,表示会将Llama3-V模型悉数撤下。
发展历程
2024年5月29日,斯坦福一AI团队发布了一个名为Llama3-V的多模态大模型,宣称只需500美元就可训练出一个性能可与GPT4-V媲美的SOTA多模态大模型。Llama3-V已经在Hugging Face平台和GitHub上发布。
关键特点
Llama3-V的关键特点包括:性能上优于LLaVA约10-20%,训练成本控制在500美元以下,并且能够与GPT4-V、Gemini Ultra和Claude3等顶尖模型相媲美。此外,Llama3-V的权重、训练和推理代码将全部开源,鼓励更多开发者参与到模型的开发和优化中。
这款模型在性能上超越了以往的同类产品,更以其较小的模型体积实现了与大型模型相媲美的性能,具备快速的本地推理能力,极大地方便了用户的操作。
相关事件
2024年5月29日,斯坦福AI团队发布Llama3-V大模型,但被网友发现该项目使用的模型结构和代码与面壁智能发布了的MiniCPM-Llama3-V2.5相似,仅修改了部分变量名。
6月2日深夜,面壁智能团队证实,该斯坦福大模型项目与MiniCPM一样,可以识别出“清华简”战国古文字,且这一古文字数据为研究团队花费数月从清华简上逐字扫描并人工标注得来,并未对外公开,证实抄袭事实。
6月4日凌晨1点27分,斯坦福Llama3-V团队的两位作者Siddharth Sharma和Aksh Garg在X上就这一学术不端行为对面壁MiniCPM团队正式道歉,表示会将Llama3-V模型悉数撤下。
参考资料
Llama3-V:全新开源视觉大语言模型正式亮相.腾讯网.2024-06-05
斯坦福AI团队回应抄袭面壁智能:Llama3-V模型将悉数撤下.新浪财经-今日头条.2024-06-05
承认、道歉、删除!斯坦福AI团队抄袭中国大模型.每日经济新闻-今日头条.2024-06-05