多模态 AI 的广阔天地
多模态 AI 是指能够执行一种或多种跨模态/多模态任务的 AI 算法。跨模态/多模态任务包括:跨模态的生成任务,如文生图;输出多模态信息的生成任务,如根据文字描述,自动输出混合了图、文、视频内容的展示文稿;跨模态的理解任务,如自动为视频编配语义字幕;跨模态的逻辑推理任务,如根据输入的几何图形,给出有关定理的文字证明;多模态的逻辑推理任务,如请AI玩密室逃脱。
GPT - 4的通用问题解决能力展示出来后,为什么我们在多模态领域还需要提升 AI 的认知效率呢?我们还没有完全弄清人类智能和机器智能之间的联系,更深入的可解释性。但是人们认识到,大语言模型和多模态模型之间存在互补关系:
GPT- 4 拥有初级AGI能力,并且这部分初级 AGI 能力主要是GPT通过阅读和统计人类语言文字获取的
人类的生存环境和思考过程肯定是多模态的,如图、文、声、光、电、影。
即便在语言文字出现前,人类的祖先也能胜任不同类型的智慧任务- 这应该是多模态学习的功劳
那么,为什么计算机不能从其他模态数据中直接学习呢?
如果单纯依赖语言文字,AI 能学到这个多模态世界的所有知识吗?
真正的 AGI 必须像人类一样高效地,能够处理这个世界上所有模态的信息,完成各种跨或多模态任务。虽然通向这个终极目标的技术路径可能是多样的,或需要探索和尝试的,但从结论上,真正的 AGI:
- 与人类相仿,是高效的多模态智能处理机;
- 仅仅从语言文字中学习与获得世界认知是不够的;
- 需要同时从所有模态信息中学习知识、经验、逻辑、方法。
GPT-4 Technical Report指出,GPT-4 拥有初步的图像语义理解能力。文生图模型Stable Diffusion与ControlNet,LoRA等条件控制和微调技术结合后,也能输出优异和可控的结果。不过,与我们真正需要的全部多模态能力相比,GPT-4在多模态能力上最多只是幼儿园水平。
如果 AI 能够像人类一样通过视觉、听觉、嗅觉、味觉、触觉等多模态传感器收集并有效处理这个世界的各种信息,我们肯定不会满足于简单的文生图功能。当多模态 AI 成熟后,带来的极具诱惑力的应用场景可能会包括:
- 机器人仅凭视觉系统对现场环境进行快速准确的还原,精准的3D重建,光场重建,材质重建,运动参数重建等等。
- 自动驾驶汽车拥有与人类司机同等级别的感知能力和判断能力。
- AI 通过观察一只小狗的生活影像,为一只3D建模的玩具狗赋予动作、表情、体态、情感、性格甚至虚拟生命。
- 动画片导演用文字描述的拍摄思路可以由 AI 解释和转换为场景设计、分镜设计、建模设计、光照设计、材质和渲染设计、动画设计、摄像机控制等一系列专业任务。
- 小朋友向 AI 描述自己幻想中的童趣世界,多模态 AI 利用虚拟现实技术帮助小朋友圆梦。
- 任何一个人都可以成为未来世界的游戏设计师。人类用户只需要笼统定义游戏场景、游戏角色和游戏规则,剩下的专业工作都可以交给未来的多模态 AI。
- 多模态 AI 成熟后,聊天机器人可以迅速演变成能够在视频聊天中“察言观色”或用“肢体语言”来帮助自己提高表达能力的换代产品。
- AI 程序有可能第一次具备与情感相关的功能属性,例如,懂得眼泪的不同含义的 AI 辅助程序;或者深入理解人类情感的虚拟心理咨询师。
- AI 有可能轻易掌握人类在艺术创作中常用的“通感”技巧: 创建节奏与情绪层层递进的高水平交响乐;为仙风道骨的飘逸舞蹈创作出类似白鹤的曼妙舞姿的场景等.
未来,多模态 AI 可能会为我们带来更多惊喜和便利。探索和研究多模态 AI 是一个艰巨和面临挑战的任务,但我们有理由相信,这样的尝试最终会改变世界,并使我们走向更加智能、高效、便捷的未来。