多模态 AI 的广阔天地

Uncategorized 2年前 (2023) aichina123

689 0 0

多模态 AI 是指能够执行一种或多种跨模态/多模态任务的 AI 算法。跨模态/多模态任务包括：跨模态的生成任务，如文生图；输出多模态信息的生成任务，如根据文字描述，自动输出混合了图、文、视频内容的展示文稿；跨模态的理解任务，如自动为视频编配语义字幕；跨模态的逻辑推理任务，如根据输入的几何图形，给出有关定理的文字证明；多模态的逻辑推理任务，如请AI玩密室逃脱。

GPT - 4的通用问题解决能力展示出来后，为什么我们在多模态领域还需要提升 AI 的认知效率呢？我们还没有完全弄清人类智能和机器智能之间的联系，更深入的可解释性。但是人们认识到，大语言模型和多模态模型之间存在互补关系：

GPT- 4 拥有初级AGI能力，并且这部分初级 AGI 能力主要是GPT通过阅读和统计人类语言文字获取的

人类的生存环境和思考过程肯定是多模态的，如图、文、声、光、电、影。

即便在语言文字出现前，人类的祖先也能胜任不同类型的智慧任务- 这应该是多模态学习的功劳

那么，为什么计算机不能从其他模态数据中直接学习呢？

如果单纯依赖语言文字，AI 能学到这个多模态世界的所有知识吗？

真正的 AGI 必须像人类一样高效地，能够处理这个世界上所有模态的信息，完成各种跨或多模态任务。虽然通向这个终极目标的技术路径可能是多样的，或需要探索和尝试的，但从结论上，真正的 AGI：

- 与人类相仿，是高效的多模态智能处理机；

- 仅仅从语言文字中学习与获得世界认知是不够的；

- 需要同时从所有模态信息中学习知识、经验、逻辑、方法。

GPT-4 Technical Report指出，GPT-4 拥有初步的图像语义理解能力。文生图模型Stable Diffusion与ControlNet，LoRA等条件控制和微调技术结合后，也能输出优异和可控的结果。不过，与我们真正需要的全部多模态能力相比，GPT-4在多模态能力上最多只是幼儿园水平。

如果 AI 能够像人类一样通过视觉、听觉、嗅觉、味觉、触觉等多模态传感器收集并有效处理这个世界的各种信息，我们肯定不会满足于简单的文生图功能。当多模态 AI 成熟后，带来的极具诱惑力的应用场景可能会包括：

- 机器人仅凭视觉系统对现场环境进行快速准确的还原，精准的3D重建，光场重建，材质重建，运动参数重建等等。

- 自动驾驶汽车拥有与人类司机同等级别的感知能力和判断能力。

- AI 通过观察一只小狗的生活影像，为一只3D建模的玩具狗赋予动作、表情、体态、情感、性格甚至虚拟生命。

- 动画片导演用文字描述的拍摄思路可以由 AI 解释和转换为场景设计、分镜设计、建模设计、光照设计、材质和渲染设计、动画设计、摄像机控制等一系列专业任务。

- 小朋友向 AI 描述自己幻想中的童趣世界，多模态 AI 利用虚拟现实技术帮助小朋友圆梦。

- 任何一个人都可以成为未来世界的游戏设计师。人类用户只需要笼统定义游戏场景、游戏角色和游戏规则，剩下的专业工作都可以交给未来的多模态 AI。

- 多模态 AI 成熟后，聊天机器人可以迅速演变成能够在视频聊天中“察言观色”或用“肢体语言”来帮助自己提高表达能力的换代产品。

- AI 程序有可能第一次具备与情感相关的功能属性，例如，懂得眼泪的不同含义的 AI 辅助程序；或者深入理解人类情感的虚拟心理咨询师。

- AI 有可能轻易掌握人类在艺术创作中常用的“通感”技巧: 创建节奏与情绪层层递进的高水平交响乐；为仙风道骨的飘逸舞蹈创作出类似白鹤的曼妙舞姿的场景等.

未来，多模态 AI 可能会为我们带来更多惊喜和便利。探索和研究多模态 AI 是一个艰巨和面临挑战的任务，但我们有理由相信，这样的尝试最终会改变世界，并使我们走向更加智能、高效、便捷的未来。

版权声明：aichina123 发表于 May 11, 2023 3:32 am。
转载请注明：多模态 AI 的广阔天地 | aichina123