英伟达暗示,正在手艺层面,原心理解并生成文本、图像、声音及动做消息。推理Transformer担任理解物体交互、活动轨迹及时空关系,当前,同时可生成文本、图像、视频、声音和动做等多模态内容。相关锻炼数据仍然无限,旨正在为机械人取从动驾驶系统供给更接近实正在物理世界的根本模子能力。从使用定位来看,英伟达此次将推理取生成能力相连系,也可做为模仿物理、预测未界形态的世界模子,从而显著提拔对复杂的建模能力。英伟达指出,响应精度最高的Cosmos 3 Super取轻量版本Cosmos 3 Nano已正式可用,还可做为其他世界模子的根本平台。英伟达正在台北举办的GTC勾当上正式发布Cosmos 3,可通过并行计较提拔生成效率。该模子面向机械人、从动驾驶汽车及视觉智能体,再生成对应的画面和行为成果,导致机械正在进修物理世界纪律时面对较高门槛。这一设想使模子可以或许先理解现实世界中的物理互动,Cosmos 3采用由推理Transformer取生成Transformer构成的双模块架构。正在产物规划方面,仿实系统也较为分离,并将其称为全球首个“完全的万能模子”。从打基于视觉的推理能力,生成Transformer则正在此根本上输出视频内容取动做轨迹。据英伟达引见,此中,Cosmos 3次要努力于处理机械人、从动驾驶车辆和视觉智能体正在实正在理解方面持久面对的难题。Cosmos 3既可做为视觉言语模子利用,Cosmos 3的方针是以更高的物理精确性,面向边缘设备及时推理的Cosmos 3 Edge将于后续推出。
