AIGC专题:Sora算力倍增,国产架构+生态崛起_《aigc | 行业深度:sora算力倍增,国产架构+生态崛起》-程序员宅基地

技术标签: AIGC  

今天分享的是AIGC系列深度研究报告:《AIGC专题:Sora算力倍增,国产架构+生态崛起》。

(报告出品方:华西证券股份有限公司

报告共计:48

来源:人工智能学派

大语言模型、文生图、文生视频加速演进

 大语言模型(LLM):LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM 使用基于神经网络的模型,通常运用自 然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型,GPT在此基础上引入了多模态。

 文生图:与大预言模型不同,多模态可以根据文字描述创建原创、逼真的图像和艺术作品。它可以组合概念、属性和样式,我们认为文 生图功能对于传统图型生成工具具有颠覆性。

 文生视频:多模态人工智能技术实现了从AI文生图到AI文生视频的跨越,实为解放生产力的双手,我们认为其功能颠覆 摄影、传媒、 电影制作等行业,例如Gen2。

 SORA推开新世界的大门,文生视频加速演进:OpenAI 2月16日凌晨发布了文生视频大模型Sora,它能够仅仅根据提示词,生成60s的 连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

大语言模型、文生图、文生视频加速演进

 Transformer架构是AI向生成式跨越的重要一步:是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性 的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM),例如ChatGPT系列中。Transformer模型旨在处理自然语言等 顺序输入数据,可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。

 文生图的基础采用的是Stable Diffusion架构:Stable Diffusion架构是一种自回归模型,基于扩散模型,因此训练和推理代价都很高。 它主要用于生成以文本描述为条件的详细图像,但它也可以应用于其他任务,例如修复、外绘以及在文本提示引导下生成图像到图像的 翻译。首先需要训练好一个自编码模型,然后利用编码器进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到 原始像素空间即可,整个流程类比物理学中的“扩散”。

SORA震撼发布,彻底颠覆文生视频领域

 Stable Video Diffusion是文生图到文生视频的跨越:Stable Video Diffusion 的核心思想是将视频生成任务分解为两个阶段。首先, 它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的,类似于将一张图片逐渐“放 大”。然后,在第二个阶段,该方法使用一个条件变分自编码器(cVAE)将生成的图像序列转化为视频。cVAE 是一种生成模型,能够 学习数据分布的特征,并根据特定条件生成新的数据样本。

 SORA震撼发布,彻底颠覆文生视频领域:而SORA模型根本区别在于,可以理解成是一种融合Transformer模型与Stable Diffusion的 一种模型,通过Transformer原理的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串 Token,并预测出下一个 Token。SORA 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

SORA震撼发布,彻底颠覆文生视频领域

 SORA具有划时代文生视频的大模型: SORA将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学 和自然语言统一起来,而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看,首先将视频压缩到一个低维度的潜在空间: 这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。

 我们判断SORA模型的出现,算力需求有望呈现几何倍数的递增:我们判断Patchs与token的差别在于图片与文字,然而时空间数据相 较于语言文字呈现的数据维度有着几何维度的差异,因此我们推测由于SORA,算力需求有望持续呈现几何规模的倍增,同时在信创和 AI的大背景下,国产算力有望大放异彩。

报告共计:48页

来源:人工智能学派

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/GPT20236688/article/details/136207787

智能推荐

5个超厉害的资源搜索网站,每一款都可以让你的资源满满!_最全资源搜索引擎-程序员宅基地

文章浏览阅读1.6w次,点赞8次,收藏41次。生活中我们无时不刻不都要在网站搜索资源,但就是缺少一个趁手的资源搜索网站,如果有一个比较好的资源搜索网站可以帮助我们节省一大半时间!今天小编在这里为大家分享5款超厉害的资源搜索网站,每一款都可以让你的资源丰富精彩!网盘传奇一款最有效的网盘资源搜索网站你还在为找网站里面的资源而烦恼找不到什么合适的工具而烦恼吗?这款网站传奇网站汇聚了4853w个资源,并且它每一天都会持续更新资源;..._最全资源搜索引擎

Book类的设计(Java)_6-1 book类的设计java-程序员宅基地

文章浏览阅读4.5k次,点赞5次,收藏18次。阅读测试程序,设计一个Book类。函数接口定义:class Book{}该类有 四个私有属性 分别是 书籍名称、 价格、 作者、 出版年份,以及相应的set 与get方法;该类有一个含有四个参数的构造方法,这四个参数依次是 书籍名称、 价格、 作者、 出版年份 。裁判测试程序样例:import java.util.*;public class Main { public static void main(String[] args) { List <Book>_6-1 book类的设计java

基于微信小程序的校园导航小程序设计与实现_校园导航微信小程序系统的设计与实现-程序员宅基地

文章浏览阅读613次,点赞28次,收藏27次。相比于以前的传统手工管理方式,智能化的管理方式可以大幅降低学校的运营人员成本,实现了校园导航的标准化、制度化、程序化的管理,有效地防止了校园导航的随意管理,提高了信息的处理速度和精确度,能够及时、准确地查询和修正建筑速看等信息。课题主要采用微信小程序、SpringBoot架构技术,前端以小程序页面呈现给学生,结合后台java语言使页面更加完善,后台使用MySQL数据库进行数据存储。微信小程序主要包括学生信息、校园简介、建筑速看、系统信息等功能,从而实现智能化的管理方式,提高工作效率。

有状态和无状态登录

传统上用户登陆状态会以 Session 的形式保存在服务器上,而 Session ID 则保存在前端的 Cookie 中;而使用 JWT 以后,用户的认证信息将会以 Token 的形式保存在前端,服务器不需要保存任何的用户状态,这也就是为什么 JWT 被称为无状态登陆的原因,无状态登陆最大的优势就是完美支持分布式部署,可以使用一个 Token 发送给不同的服务器,而所有的服务器都会返回同样的结果。有状态和无状态最大的区别就是服务端会不会保存客户端的信息。

九大角度全方位对比Android、iOS开发_ios 开发角度-程序员宅基地

文章浏览阅读784次。发表于10小时前| 2674次阅读| 来源TechCrunch| 19 条评论| 作者Jon EvansiOSAndroid应用开发产品编程语言JavaObjective-C摘要:即便Android市场份额已经超过80%,对于开发者来说,使用哪一个平台做开发仍然很难选择。本文从开发环境、配置、UX设计、语言、API、网络、分享、碎片化、发布等九个方面把Android和iOS_ios 开发角度

搜索引擎的发展历史

搜索引擎的发展历史可以追溯到20世纪90年代初,随着互联网的快速发展和信息量的急剧增加,人们开始感受到了获取和管理信息的挑战。这些阶段展示了搜索引擎在技术和商业模式上的不断演进,以满足用户对信息获取的不断增长的需求。

随便推点

控制对象的特性_控制对象特性-程序员宅基地

文章浏览阅读990次。对象特性是指控制对象的输出参数和输入参数之间的相互作用规律。放大系数K描述控制对象特性的静态特性参数。它的意义是:输出量的变化量和输入量的变化量之比。时间常数T当输入量发生变化后,所引起输出量变化的快慢。(动态参数) ..._控制对象特性

FRP搭建内网穿透(亲测有效)_locyanfrp-程序员宅基地

文章浏览阅读5.7w次,点赞50次,收藏276次。FRP搭建内网穿透1.概述:frp可以通过有公网IP的的服务器将内网的主机暴露给互联网,从而实现通过外网能直接访问到内网主机;frp有服务端和客户端,服务端需要装在有公网ip的服务器上,客户端装在内网主机上。2.简单的图解:3.准备工作:1.一个域名(www.test.xyz)2.一台有公网IP的服务器(阿里云、腾讯云等都行)3.一台内网主机4.下载frp,选择适合的版本下载解压如下:我这里服务器端和客户端都放在了/usr/local/frp/目录下4.执行命令# 服务器端给执_locyanfrp

UVA 12534 - Binary Matrix 2 (网络流‘最小费用最大流’ZKW)_uva12534-程序员宅基地

文章浏览阅读687次。题目:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=93745#problem/A题意:给出r*c的01矩阵,可以翻转格子使得0表成1,1变成0,求出最小的步数使得每一行中1的个数相等,每一列中1的个数相等。思路:网络流。容量可以保证每一行和每一列的1的个数相等,费用可以算出最小步数。行向列建边,如果该格子是_uva12534

免费SSL证书_csdn alphassl免费申请-程序员宅基地

文章浏览阅读504次。1、Let's Encrypt 90天,支持泛域名2、Buypass:https://www.buypass.com/ssl/resources/go-ssl-technical-specification6个月,单域名3、AlwaysOnSLL:https://alwaysonssl.com/ 1年,单域名 可参考蜗牛(wn789)4、TrustAsia5、Alpha..._csdn alphassl免费申请

测试算法的性能(以选择排序为例)_算法性能测试-程序员宅基地

文章浏览阅读1.6k次。测试算法的性能 很多时候我们需要对算法的性能进行测试,最简单的方式是看算法在特定的数据集上的执行时间,简单的测试算法性能的函数实现见testSort()。【思想】:用clock_t计算某排序算法所需的时间,(endTime - startTime)/ CLOCKS_PER_SEC来表示执行了多少秒。【关于宏CLOCKS_PER_SEC】:以下摘自百度百科,“CLOCKS_PE_算法性能测试

Lane Detection_lanedetectionlite-程序员宅基地

文章浏览阅读1.2k次。fromhttps://towardsdatascience.com/finding-lane-lines-simple-pipeline-for-lane-detection-d02b62e7572bIdentifying lanes of the road is very common task that human driver performs. This is important ..._lanedetectionlite

推荐文章

热门文章

相关标签