中信建投:多模态AI模型和全局模型具有重塑多个行业商业逻辑的潜力

智通财经APP获悉,中信建投作为全球多模态技术相对领先的厂商,曾发布研究报告指出,谷歌、快手等主流模态注重字符一致性和物理逻辑问题解决。快手月活跃用户数和订阅收入增长超过1000万,标志着多模态工具从娱乐向生产力的转变。从应用来看,AI漫画正在取代短剧成为新的增长支柱。像字节跳动这样的平台通过高额激励来推广高质量的内容。人工智能有望加速影视知识产权进程,创造新的市场机会,重塑广告和游戏资产的生产逻辑。展望未来,我们预计本土多式联运和世界模式技术的共同进化将重塑变革性行业的格局,例如营销、电影、电视和游戏。中信建投的主要观察如下。作为全球较大的多模态技术厂商,谷歌Veo、Gemini、Nanobanana等模型系列在超长上下文理解和原生音视频融合领域设置了很深的壁垒。快手科灵、MiniMax海螺、阿里巴巴统一万象、智普等国内领先企业也着力通过架构和技术创新解决视频生成中长期存在的人物一致性不可控、物理逻辑崩溃、分镜不可控等问题。工业生产问题加速多模态技术商业化:海洛AI:MiniMax(00100)10月28日更新,海洛2.3系列模型注重物理稳定性和全模态协作,解决了大规模动态镜头运动导致的物理崩溃问题。我正在解决问题。基于大规模运动指令的光影方向、明暗过渡以及物理碰撞逻辑的模拟已经接近真实世界拍摄的质量,尤其是对于小抓握、手指交叉等复杂的身体动作。表现出极高的稳定性。海螺媒体代理还将视频、音频和语言模型封装成统一的代理,以支持无限画布上的自然语言协作。用户只需输入简单的商业想法,代理即可独立生成脚本、渲染视频和设置音效。科灵AI:快手(01024)o1是科灵于12月1日发布的,是业界首个将多种创意任务整合到统一引擎中的大规模视频模型。该模型基于多模态视觉语言的概念,融合了参考图像和视频、增删内容、重画样式等特征,解决了预渲染中特征碎片化的问题。以前的工作。根据快手内测数据,科灵o1图像参考任务胜负率达到247%,命令转换任务胜负率达到230%。他在理解复杂的创作意图方面表现出了卓越的表现。 Keling Video 2.6模型进一步增强了音频同步和运动控制能力,支持lto视频生成过程中的自然语言交互和音效,并精细化了手势、面部表情和身体动作的驱动程序。根据实测,科灵2.6可以支持长达30秒的控制复杂武术动作,并在生成过程中保持色调一致性,进一步提高视频生成的可控性。阿里统一万向:阿里于2025年12月26日正式推出统一万向2.6系列机型,通过多模态联合建模技术,在国产游戏中首创商业角色扮演功能。具体来说,晚霞ng 2.6从参考视频中提取主体的情绪、姿势和声学特征,并在生成阶段将其作为约束,以保证不同镜头之间的人物一致性,解决影视制作中IP图像的闪烁问题。在叙事控制方面,万向2.6引入了专业的分镜控制表达。它理解高级语义逻辑,并自动将文本分解为专业的镜头组合,例如远景环境、中景动作和特写。目前,万向2.6支持生成一次15秒的高分辨率视频。这是中国公开测试的最好指标。镜头节奏和银幕氛围的高度一致建模为专业导演提供了随时可用的数字制作工具。智普:2026年1月14日,智普(02513)AI与华为推出的GLM-Image成为首个完成的SOTA成像模型基于国产全栈算力的全流程训练,验证了国产Ascend芯片和Ascend框架在大规模模型训练中的可靠性。在技​​术方面,GLM-Image模型采用自回归理解和扩散解码的混合架构,既考虑宏观逻辑理解,又考虑详细的微观表征。它在处理知识密集型场景,特别是复杂的标识设计和利用数据信息生成图形方面具有出色的性能,解决了业界汉字渲染混乱的问题。此外,GLM-Image 模型本身支持从 1024×1024 到 2048×2048 之间的任何比例的输出,以理解推测性创意指令。 API调用方式生成一张图片仅需0.1元,非常划算。在工业方面,模型能力的进步促进了社区的采用和商业化。 Kua的“运动控制”功能《异兽可灵2.6》拉动了宠物舞等现象级视频的热度,带动了C端用户的涌入,也直接转化为订阅收入。据玩玩独家调研数据显示,2026年1月科灵AI月活跃用户突破1200万,截至2026年1月20日,科灵APP付费用户数逐月增长350%,1月日均收入较12月日均收入增长约30%(科灵2025年12月月收入突破2000万美元)。从收入结构来看,开云集团2025年的年收入预计将达到1.4亿美元,其中专业生产商占比近70%。这与快手长期以来针对P端用户(自媒体视频创作者、广告专业人士等)的策略是一致的。换句话说,多模态AI工具与娱乐属性解耦,成为生产力工具。面向电影、电视、广告等行业专业人才,初步形成业务闭环。 AI漫画与短剧一起成为视频生成应用的新场景。像字节跳动这样的领先平台正在通过激进的激励政策推广优质的人工智能内容。以抖音短剧版权中心为例。公司于2025年12月16日推出“漫画制作激励计划”,向采用大豆袋模式制作漫画的机构提供15%的技术成本。此后,抖音进一步强化了对喜剧剧制作的激励,弹豆S+漫画每分钟5000元保底激励,一部剧50万至75万元保底,大片作品比例最高可达每分钟3万元。同时,平台出版了6万多部番茄小说的优质知识产权库,并全额补贴适应成本。数据显示,2025年9月,红果短剧月活跃用户数约为2.36亿,超越哔哩哔哩和优酷,并超越芒果TV。从市场规模来看,预计今年短剧将超过1000亿,漫画将超过200亿,潜力巨大。从短剧视频素材的生成,到长篇漫画的生成,AI技术正在打造新的产业生态,并逐步创造商业价值。展望未来,多模态技术一方面将向集成视频、音频、图像和文本的原生多模态系统发展,另一方面将向具有物理常识和逻辑推理的世界模型发展。第一个强调人工智能可以在一组框架下统一处理不同的模式。后者意味着AI可以根据当前图像预测下一帧会发生什么,ju就像人类的大脑一样。在扩展应用场景方面,原生多模态和世界模型重塑了多个行业的业务逻辑。例如,在搜索和营销领域,最近出现了从SEO到GEO的转变,未来可能会变成生成式视觉搜索,不仅可以搜索图像,还可以直接获得AI生成的个性化视频作为实时响应。在娱乐领域,短篇作品和漫画呈现快速增长趋势,新颖的IP+A视频组合可以加速IP影视化进程。游戏行业也深受生成式人工智能的影响。目前,领先企业正在将人工智能应用于艺术品的辅助生产。未来,世界模型支持还将启用实时游戏引擎,从而在元宇宙中带来类似《头号玩家》的开放世界游戏体验。风险提示:人工智能产业商业化不及预期化。市场竞争风险。地缘政治风险。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传和发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注