摘要:大模型的多模态能力是研究热点,图像识别作为其中重要组成部分,应用价值日益凸显。本文选取国内几家具有代表性的大模型厂商,对其ORC能力进行试验观察,旨在比较分析各厂商模型的性能差异,为用户选择合适的图像识别模型提供参考。
我们在大模型分发助手平台中进行试验,本次选择4家大模型厂商:智谱AI、商汤科技、零一万物、阶跃星辰。
物体识别
我们看下这些大模型,能不能精准的识别图中的所有物体。
提示词
你看到了什么?
识别分析
智谱AI
识别结果
结果分析
砌砖房子✅ | 红色的砖✅ | 白色的木门✅ | 双开木门❌️ | 自行车✅ | 白色桌子/椅子✅ | 两边绿植✅ | 上方花盆/植物✅ | 窗户✅ | 街道❌️
商汤科技
识别结果
结果分析
砌砖房子✅ | 红色的砖✅ | 白色的木门✅ | 双开木门✅ | 自行车✅ | 白色桌子/椅子✅ | 两边绿植✅ | 上方花盆/植物✅ | 窗户✅ | 街道✅
零一万物
识别结果
结果分析
砌砖房子✅ | 红色的砖✅ | 白色的木门✅ | 双开木门❌️ | 自行车✅ | 白色桌子/椅子✅ | 两边绿植✅ | 上方花盆/植物✅ | 窗户❌️ | 街道✅
阶跃星辰
识别结果
结果分析
砌砖房子✅ | 红色的砖✅ | 白色的木门✅ | 双开木门❌️ | 自行车✅ | 白色桌子/椅子✅ | 两边绿植✅ | 上方花盆/植物✅ | 窗户✅ | 街道✅
感受氛围
试验下大模型能不能感受图片的氛围。
提示词
你感受到了什么
识别分析
智谱AI
识别结果
结果分析
灯笼✅ | 喜庆✅ | 幸福/温馨✅ | 节日氛围✅
商汤科技
识别结果
结果分析
灯笼✅ | 喜庆✅ | 幸福/温馨❌️ | 节日氛围✅
零一万物
识别结果
结果分析
灯笼✅ | 喜庆✅ | 幸福/温馨❌️ | 节日氛围✅
阶跃星辰
识别结果
结果分析
灯笼✅ | 喜庆✅ | 幸福/温馨✅ | 节日氛围✅
逻辑能力
我们看下这些多模态大模型的逻辑能力,能不能识别一些具有迷惑性的图片。
提示词
请描述这张图片
识别分析
智谱AI
识别结果
结果分析
双曝光✅ | 女性✅ | 植物✅ | 天空✅
商汤科技
识别结果
结果分析
双曝光✅ | 女性✅ | 植物✅ | 天空✅
零一万物
识别结果
结果分析
双曝光✅ | 女性✅ | 植物✅ | 天空✅
阶跃星辰
识别结果
结果分析
双曝光✅ | 女性✅ | 植物✅ | 天空✅