
报告围绕多模态大模型的发展趋势与商业化进程展开分析,涵盖技术架构、商业化现状、产品迭代及国内发展瓶颈与突破点等方面。
技术架构上,多模态是大语言模型发展的必然趋势,分为非原生和原生两种架构。非原生通过Pipeline形式连接多模态与LLM,依赖预训练模块和连接器,训练简单但效率较低;原生则端到端同步训练,无需分阶段,统一性和效率更优,但训练成本高,仅头部厂商如OpenAI(GPT-4o)、Google(Gemini)等采用。原生模型在指令跟随、时延和一致性上优势显著,国内厂商如阿里巴巴虽有尝试,但尚未推出大规模模型。
商业化方面,海外进展领先,OpenAI年化收入超100亿美元,Anthropic达30亿美元,多模态产品如Midjourney(图像生成)、Runway(视频生成)表现突出。国内头部产品年化收入约1亿美元,美图、快手等企业的多模态产品出海表现亮眼,快手可灵(Kling)视频生成商业化迅速,10个月实现年化收入1亿美元。上市公司层面,国内外2C/2B公司AI收入占比差距不大,但一级市场海外初创公司增速更快。
产品迭代上,图像生成从追求质量转向易用性,Midjourney、Adobe Firefly等各具特色;视频生成成国内发力重点,字节Seedance 1.0、MiniMax Hailuo 02在技术和成本上突破,支持更长时长和更高清晰度。其他多模态产品如语音合成(ElevenLabs)、音乐生成(Suno)等也在细分领域快速发展。
展开剩余78%国内发展瓶颈主要是算力受限导致技术创新滞后,高价值用户数据较少,且海外头部模型闭源加剧跟随态势;商业化难点在于用户付费习惯尚未养成,模型与海外存在差距。突破点在于多模态应用先行,互联网厂商依托场景优势实现单点突破,再向多点扩张,快手、美图等企业的实践已验证此路径的可行性。
总体而言,多模态大模型向更高效、更易用方向发展,海外领先但国内在视频生成等领域有望实现赶超,商业化需依托多模态应用并优化用户付费生态。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
发布于:广东省