商汤发布开源社区多模态多任务通用大模型“书生2.5”

跑车之友 2023-03-16 骐邦 52046

　　3月14日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”，在多模态多任务处理能力方面实现多项全新突破，其卓越的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持，向通用人工智能迈出坚实的一步。“书生（INTERN）”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布，并持续联合研发。

　　“书生2.5”拥有30亿参数，不仅是世界上开源模型中ImageNet准确度高、规模大的模型，也是物体检测标杆数据集COCO中为数不多超过65.0 mAP的模型。目前，“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源（https://github.com/OpenGVLab/InternImage），为学术界和产业界的多模态通用模型研发提供有力支撑。

　　当前，人工智能技术的发展正面临着大量跨模态任务的挑战，为满足快速增长的各式应用场景需求，发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建，可接收处理各种不同模态的输入，并采用统一的模型架构和参数处理各种不同的任务，促进不同模态和任务之间在表示学习方面的协作，逐步实现通用人工智能领域的融会贯通。

　　迈向AGI通用人工智能，大幅提升通用场景感知和理解能力

　　在当今快速增长的各式应用场景需求下，传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

　　“书生2.5”实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

　　在自动驾驶和居家机器人等通用场景下，“书生2.5”可辅助处理各种复杂任务。例如在自动驾驶场景下，可以大幅提升场景感知理解能力，准确地辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆的决策规划提供有效信息输入。

　　利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

　　利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

　　除了解决例如自动驾驶和居家机器人这类复杂问题的能力，“书生2.5”通用大模型也可以解决纷繁复杂的日常生活中的常见任务，满足各种需求。

　　除了全图级别的以图生文，“书生2.5”通用大模型同样可以根据物体边框更精细化定位任务需求。

　　“书生2.5”同时具备AIGC“以文生图”的能力，可根据用户提出的文本创作需求，利用扩散模型生成算法，生成高质量、自然的写实图像。例如借助“书生2.5”的以文生图能力帮助自动驾驶技术研发，通过生成各类真实的道路交通场景，如繁忙的城市街道、雨天拥挤的车道、马路上奔跑的狗等，生成写实的Corner Case训练数据，进而训练自动驾驶系统对Corner Case场景的感知能力上限。

　　“书生2.5”还可根据文本快速检索出视觉内容。例如，可在相册中返回文本所指定的相关图像，或是在视频中，检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，可实现开放世界视频或图像中物体检测及视觉定位。

　　三位一体，高效能打通自然语言、图像等多模态任务处理

　　“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合，即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型（LLM）和用于多任务的兼容解码建模大模型（Uni-Perceiver）。

　　其中，InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式，从而为多功能视觉感知提供强大的表示。超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间，将不同任务统一为相同的任务范式，从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。此外，“书生2.5”还创新性地引入了任务级别的稀疏激活机制，使其具备高效的多任务协作能力。

　　除了高精确度的语义理解能力外，“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上，其取得了65.4的mAP，是世界上为数不多超过65.0 mAP的模型。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了不俗成绩。

　　在20余个不同场景、不同任务的单模态和跨模态公开数据集中都取得了不俗成绩

　　开源模型社区性能多模态大模型，加速学术和产业界多模态通用模型研发

　　即日起，“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源，成为目前开源模型社区能提供的性能突出的多模态大模型。

　　OpenGVLab致力于通用视觉模型的开源社区建设，开源项目覆盖数据、模型、评测基准全链路，为学术界和产业界的多模态通用模型研发提供了坚实的支撑。在数据方面，OpenGVLab构建了千万级超大规模精标注数据集，涵盖了图像分类、目标检测等视觉核心任务的标注，同时包括各类图像中的属性、状态等的精细标注，显著降低了数据的采集成本。在模型方面，OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型，助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练，并供所有对人工智能技术感兴趣的人士自由体验。

　　OpenGVLab还提供了多任务、多模态的通用视觉评测基准，可以提供权威的评测结果，推动基于统一标准的公平和准确评测，加快通用视觉模型的产业化应用步伐。通过开源社区的建设，OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛，用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型，高效实现对长尾场景的覆盖，推动通用AI技术的规模化应用。

　　当前，“书生”还在持续学习、不断进步，致力于实现多模态多任务通用模型技术的突破，驱动通用人工智能技术的创新应用生态，为推动人工智能学术、产业发展做出贡献。

Tags: 人工智能能力模型开源社区

上一篇：图片外泄、驻警翘班吸毒……台北故宫博物院被曝管理松散

下一篇：公安部部署依法严厉打击制售假劣农资犯罪

汽车探索者　汽车视野网　天宸汽车网　行车视点网　汽车视界网　车事快报网　车轮观察网　新车测评网　驾驶世界网　车市汽车网　一购车网　驾乐便览网

你可能感兴趣的文章

排名	标题	查看
1	快评7月份车企销量，比亚迪还是第一	100470
2	27.58 万 2020 款宝马 530Li xDrive M 运动套装，4.5 万公里，值得买吗？	100433
3	技术强、用料足，奇瑞的星途凌云大家都说好，为啥就是卖不动？	100330
4	方程豹优惠5万砸盘下一个会不会是腾势N7?	100297
5	坦途加版全部在售 2024款 2023款 2022款 2021款 2020款 2019款,坦途加版提供试乘试驾限时优惠高达6万元	100216
6	《携手同行，锦湖轮胎与领克07共征前路》,	100159
7	车企期中考成绩大比拼，御寒能力谁最强？	100151
8	上汽大众帕萨特降至10.54万元：员工内购价，半年后可过户	100113

商汤发布开源社区多模态多任务通用大模型“书生2.5”

中国人保携手义乌龙田丰田汽车购车嘉年华

中国人保携手义乌祥马汽车购车嘉年华

美国抖音直播地域限制怎么办，如何在美国开通直播

中国人保携手义乌凯宾汇汽车购车嘉年华

中国人保携手义乌君驰汽车购车嘉年华

户外踏青季玩家露营时安徽钧升斯巴鲁客户感谢日活动圆满落幕

商汤发布开源社区多模态多任务通用大模型“书生2.5”

中国人保携手义乌龙田丰田汽车购车嘉年华

中国人保携手义乌祥马汽车购车嘉年华

美国抖音直播地域限制怎么办，如何在美国开通直播

中国人保携手义乌凯宾汇汽车购车嘉年华

中国人保携手义乌君驰汽车购车嘉年华

户外踏青季 玩家露营时 安徽钧升斯巴鲁客户感谢日活动圆满落幕

户外踏青季玩家露营时安徽钧升斯巴鲁客户感谢日活动圆满落幕