OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf优质

下载本文档

阅读 120
下载 18
格式 pdf
大小 3.55 MB
约37页
2025-06-04 发布于陕西
收藏
评论
点赞(0)
海报
举报

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf_第1页

1/37页

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf_第2页

2/37页

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf_第3页

3/37页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/37

下载本文档

文本预览下载提示常见问题

Transformer扩展优势凸显，视频理解与生成能力提升西南证券研究发展中心海外研究团队王湘杰 2024年2月 OpenAI Sora专题 2 核心观点  事件：2024年2月16日，OpenAI发布文生视频模型——Sora及其技术报告《Video generation models as world simulators》。  从Sora模型看文生视频的技术路径：技术路径尚未收敛，Transformer扩展特性优势凸显。市场大多认为扩散模型是图像和视频生成领域的主流路径，但没有重视Transformer架构scale up的能力。OpenAI技术报告指出，Sora是基于扩散模型，但更强调，Sora是一个基于Transformer架构的扩散模型，其优秀的生成能力离不开Transformer架构优秀的scaling特性。当前，为构建性能更优、效率更高的视频生成模型，已出现多种结合Diffusion Model和Transformer架构的构建方式。  从Sora模型看文生视频的最新能力（假设展示视频可以代表Sora的一般性表现）：1）强大的理解能力：Sora模型不仅可以理解Prompt的内容，还能理解事物在物理世界中的存在方式，突出的语言理解能力是其能够准确生成视频的前提。2）优秀的生成能力：①长度：可生成60s视频；②复杂度：能够生成包含多个角色、多种主题、多类运动形态的复杂场景；③逼真度：能够呈现更多的视觉细节，具备更高清的画质，为用户提供逼真的视觉体验；④连贯性&一致性：可以生成同一角色的多个镜头，保持其在整个视频中的外观，在角度移动和切换情况下，人物和场景元素在三维空间中的位置关系能够保持一致的运动；⑤可控性：在某一Prompt基础上只改动一个关键词仍能生成优质的视频，具备较好的可控性。3）其他能力：图生视频，视频扩展/编辑/拼接/模拟等。  从Sora模型看文生视频的行业影响：目前OpenAI已向部分视觉艺术家、设计师和电影制作人提供访问权限，以获取专业的反馈。我们认为，以Sora为代表的视频生成模型有望给广告/设计/短视频/游戏等行业带来变化。从中短期来看，视频生成模型将更多的作为创作工具对相关行业进行赋能。  投资建议：随着文生视频模型的迭代升级和未来的大规模应用，算力需求有望增长，云服务有望成为算力的重要补充，视频传输也将带动高带宽、高性能的光通信需求，建议关注算力、云服务和光通信领域投资机会。相关标的：英伟达(NVDA.O)、超威半导体(AMD.O)、微软(MSFT.O)等。  风险提示：技术进展不及预期风险；行业竞争加剧风险；应用开发不及预期风险。 1 2 1.1 发展现状：视觉生成热潮兴起，路径探索仍在继续 1.2 路径对比：扩散模型占据主流，自回归模型潜力可期 1.3 未来趋势：transformer优势凸显，多种模型构建方式有望呈现 1 从Sora看文生视频模型的技术路径目录 2 从Sora看文生视频模型的最新能力 2.2 理解能力：领会并细化提示词，学习及模拟物理世界 2.3 生成能力：视频长度优势明显，连贯性及可控性提升 2.4 其他能力：图生视频，视频扩展/编辑/拼接/模拟等 2.1 模型背景：团队成员年轻有为，相关技术积累深厚 3.1 算力端：参数扩展提升训练算力消耗，应用落地拉动推理算力增长 3 从Sora看文生视频模型的影响 3.2 应用端：文生视频模型拓宽应用广度，前期有望以助手角色落地 3.3 其他：云服务将成算力重要补充，多媒体传输带动光通信需求  从模态发展情况来看：AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前，大语言模型在文本端的应用趋于成熟，图像和视频生成技术快速发展，AI视觉浪潮正加速到来。  从市场催化节奏来看：受文本端杀手级应用ChatGPT（于22年11月推出）和图像生成代表应用Midjourney V5（于23年3月推出）的影响，文本端和图像生成应用已于2023年迎来市场催化。2024年2月16日，OpenAI发布Sora文生视频，引发市场对视频生成领域的高度关注。未来，随着模型的持续迭代和相关应用的涌现，视频生成领域有望在24年迎来热潮。资料来源：西南证券大模型多模态发展情况 1.1.1 发展现状：多模态发展已成共识，视觉生成热潮逐步兴起 3 文本端趋势基石理论核心模型 2017年6月Transformer架构提出 2018年10月Bert初 ...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf

您可能关注的文档

无忧公文: 实名认证
内容提供者

该用户很懒，什么也没介绍

进入空间

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf优质

OpenAI Sora专题：Transformer扩展优势凸显，视频理解与生成能力提升-20240228-西南证券-37页.pdf

您可能关注的文档

相关文档

热门下载

相关标签