艾瑞数智|艾瑞咨询| 艾瑞网|艾瑞智慧

艾瑞网

搜索
登录登录用户注册

搜索历史

热搜词

移动互联网

OpenAI的Sora有多强？马斯克：人类GG

科技茶馆

2024/2/26 22:28:00

近日，OpenAI发布了一个名为Sora的视频生成模型，引起了广泛的关注和讨论，OpenAl推出ChatGPT才过去一年多，就再度扔出一枚重磅炸弹。

从2016年发布的chatgpt，一个可以与人类进行自然对话的AI模型，到2020年发布的GPT-3，一个可以生成任意文本的AI模型，再到2021年发布的DALL-E，一个可以根据文本生成任意图像的AI模型，以及Codex，一个可以根据文本生成任意代码的AI模型，OpenAI不断刷新了人工智能的界限和记录。

我们不禁想象，SORA作为Open AI的新产品，能够在哪些领域和场景中发挥什么作用？能量几何呢？

OpenAI的新王炸

一锤降维

OpenAI，这个以人工智能为使命的非营利组织，近年来频繁出现在科技界的头条。从GPT-3到DALL-E，从Codex到Jukebox，OpenAI不断推出让人惊叹的AI模型和工具，展示了人工智能的无限可能。

在2月16日OpenAI 又推出了其最新的视频生成大模型 SORA，Sora的原理是基于OpenAI的先进的自然语言处理和计算机视觉技术，结合了大量的视频数据和知识图谱，通过神经网络生成高质量的视频画面和音效，目标是让视频创作变得更加简单、快速和有趣，让每个人都能成为视频大师。

虽然文生视频大模型并不是一条全新的赛道。但SORA生成的视频不仅拥有精致的背景和多角度的镜头切换，还能展现出多个角色的丰富的情感表现。这一成就远远超越了目前的 AI 视频工具，如 Runway Gen 2、Pika 等，当它们仍然在努力实现短时间内的视频连贯性，OpenAI 无疑已经用 SORA 创造了一个史无前例的里程碑。

使用了扩散Transformer作为底层模型，SORA可以更好地捕捉视频中的时空关系和逻辑，而其他工具通常使用了循环网络、生成对抗网络或自回归Transformer等模型。SORA的优势在于它可以同时处理视频的内容和样式，从而生成更自然和多样的视频。SORA的核心是一个扩散过程，它将视频分解为一系列的隐变量，然后逐步地重建视频。在重建过程中，SORA利用了一个基于Transformer的编码器-解码器结构，以及一个基于注意力机制的时空对齐模块，来学习视频的高层语义和低层细节。

SORA的另一个特点是它可以灵活地适应不同的视频任务，如视频生成、视频编辑、视频风格迁移等，只需改变输入和输出的条件。SORA的实验结果表明，它在多个视频数据集上都取得了优于现有方法的性能和视觉效果。

SORA的出现，无疑是对人工智能领域的一锤降维，它打破了自然语言和代码之间的隔阂。SORA的应用场景是无限的，从教育，到娱乐，再到商业，都能够发挥它的作用和价值。视频革命新纪元已然到来。

到底有多强？

马斯克：人类GG

Sora的技术报告更加直观的显示了它的强大实力：

* 一个时尚的女人走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克，长红裙，黑靴子，手拎黑色手提包。她戴着墨镜和红唇。她自信而随意地走着。街道潮湿而有反光，营造出色彩斑斓的灯光的镜像效果。许多行人走来走去。

* 几只巨大的毛茸茸的猛犸象在一个雪地草原上接近，它们的长毛茸茸的皮毛在风中轻轻摇曳，远处是覆盖着积雪的树木和雄伟的雪山。午后的阳光和飘渺的云彩营造出一种温暖的光芒，低角度的摄像机视角令人惊叹地捕捉到了这种大型毛茸茸的哺乳动物的美丽摄影，景深。

* 一个电影预告片，展示了一个30岁的太空人的冒险，他戴着一顶红色羊毛编织的摩托车头盔，蓝天，盐沼，电影风格，用35毫米胶片拍摄，色彩鲜艳。

Sora的惊人能力不仅能够生成现实中的场景，还能够生成虚构的场景，甚至是从未存在过的场景。Sora的视频具有高度的真实性和创造性，它能够根据文本指令的细节和风格，生成符合用户期望的视频。在Sora，你能够生成不同的视角、光照、颜色、纹理、运动等视频元素，增加视频的丰富性和趣味性。

我们可以想象到Sora的出现为视频创作和消费带来了全新的可能性。视频制作人、艺术家、教育者、娱乐者……他们无需复杂的设备、技术或成本，就能够用简单的文本描述来创造出惊人的视频。

Sora的强大引起了很多人的关注和讨论，不少网友表示：“手中的饭碗保不住了。”包括OpenAI的联合创始人之一，特斯拉和SpaceX的CEO马斯克也在推特上发表了一条评论：“humans gg”。

这些评论的出现也不意外，也许Sora的未来将如何发展，还有待观察。但有一点是肯定的，Sora已经改变了视频领域的格局，也许还会改变更多的领域。人工智能预计未来带来的震感会更加强烈，各行各业都需要系好安全带。

从chatgpt到Sora

Open AI何以大招频出？

能打败Open AI的也只有Open AI了。

2015年门洛帕克的一顿晚饭上，在基于“构建安全的人工智能以造福人类”的愿景下，一些大佬们决定创建一个非营利性机构，这个机构最终获得了包括Greg Brockman和Sam Altman在内的马斯克、Jessica Livingston（Y C创始合伙人）、Peter Thiel（PayPal联合创始人）、Reid Hoffman（LinkedIn联合创始人）等企业家，以及亚马逊的AWS等知名企业和机构的十亿美元投资。

一个由世界一流的工程师和设计师组成的队伍产品团队诞生了，他们将OpenAI的研究成果转化为实用的产品和服务，为广大的用户和开发者提供便利和价值。凭借着这个世界顶尖的产品团队，一直以来OpenAI的成果是有目共睹的。

另外，从chatgpt到SORA，OpenAI沿袭了过往大语言模型训练的许多成功经验。和gpt一样使用Transformer框架和LLM路线，可以说，对于目前all in AGI的OpenAI来说，从文本生成模型 GPT、文生图模型 DALL·E，到文生视频模型 Sora，OpenAI或许已经打造出了一条自己的AGI通用技术路线。在未来，chatgpt或许还会依赖这条路径创作出更多模型。

科技君想 Sora能量几何的答案是无穷无尽的，最终Sora的潜力只取决于用户和市场的想象力和创造力。

总的来说，Sora的出现再次证明了OpenAI的实力和野心，我们正目睹一场视频革命新纪元拉开帷幕。