Sora:从文本生成视频的新纪元

我们正在教人工智能理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要真实世界交互的问题。

介绍Sora,我们的文本到视频模型。Sora可以生成长达一分钟的视频,同时保持视觉质量并遵守用户提示。

提示语:一位时尚女士走在东京的街道上,街道上充满了温暖的霓虹灯和动画城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信而随意。街道潮湿且反光,形成了五颜六色灯光的镜面效果。许多行人四处走动。

如今,红队队员可以使用Sora来评估关键区域的危害或风险。我们还向许多视觉艺术家、设计师和电影制作人提供访问权限,以获得关于如何改进该模型以最大限度地帮助创意专业人士的反馈。

我们很早就分享了我们的研究进展,以开始与OpenAI以外的人合作并获得他们的反馈,并让公众了解即将到来的人工智能能力。

提示语:一个玻璃球体的特写,里面有一个禅宗花园。球体里有一个小矮人,他正在耙禅宗花园,并在沙子上创造图案。

Sora能够生成具有多个角色、特定运动类型以及主体和背景的精确细节的复杂场景。该模型不仅理解用户在提示中要求的内容,还理解这些内容在现实世界中的存在方式。

提示语:一个中国农历新年庆祝视频与中国龙。

该模型对语言有着深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。Sora还可以在一个生成的视频中创建多个镜头,准确地保留人物和视觉风格。

提示语:一个机器人在赛博朋克环境中的生活故事。

目前的模式存在缺陷,它可能难以准确模拟复杂场景的物理特性,也可能不理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后,饼干可能没有咬痕。

该模型还可能混淆提示的空间细节(例如,混淆左右),并且可能难以准确描述随时间发生的事件,例如跟随特定的相机轨迹。

提示语:步打印一个人跑步的场景,35毫米拍摄的电影胶片。弱点:索拉有时会产生令人难以置信的身体运动。

安全

在 OpenAI 产品中使用 Sora 之前,我们将采取几个重要的安全措施。我们正在与红队成员合作——“错误信息、仇恨内容和偏见等领域的领域专家”——他们将对模型进行对抗性测试。

我们还在构建工具来帮助检测误导性内容,例如检测分类器,可以判断 Sora 何时生成视频。如果我们在 OpenAI 产品中部署模型,我们计划将来包含 C2PA 元数据。

除了开发新技术来准备部署之外,我们还利用为使用 DALL·E 3 的产品构建的现有安全方法,这些方法也适用于 Sora。 例如,在 OpenAI 产品中,我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示,例如要求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。我们还开发了强大的图像分类器,用于检查生成的每个视频的帧,以帮助确保它在向用户显示之前符合我们的使用政策。

我们将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧并确定这项新技术的积极用例。尽管进行了广泛的研究和测试,我们仍无法预测人们将使用我们的技术的所有有益方式,也无法预测人们将滥用我们的技术的所有方式。这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。

提示语:建筑工地的倾斜移位,里面挤满了工人、设备和重型机械。

研究技术

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐对其进行转换。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过一次为模型提供多个帧的预见,我们解决了一个具有挑战性的问题,即确保主题即使暂时离开视野也保持不变。

与 GPT 模型类似,Sora 使用变压器架构,释放出卓越的扩展性能。

我们将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于 GPT 中的令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变换器,涵盖不同的持续时间、分辨率和纵横比。

Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本指令。 除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧。请参阅我们的技术报告了解更多信息。

Sora 是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现 AGI 的重要里程碑。

本文资料来源于互联网,仅做网络分享,如有侵权,请联系删除;不代表Sora中文网立场,如若转载,请注明出处:https://www.allinsora.com/4345

(0)
上一篇 2024年2月29日 下午2:21
下一篇 2024年2月29日 下午2:59

相关推荐

  • 从导师到对手:揭秘埃隆·马斯克与山姆·奥特曼之间的纷争及人工智能领域的权力转移

    近日,人工智能行业内爆发了一场引人瞩目的冲突,主角是OpenAI的首席执行官山姆·奥特曼和科技巨头埃隆·马斯克。一度被奥特曼视为导师的马斯克,因双方在商业哲学上的分歧而与其走向对立。马斯克公开批评奥特曼背离了OpenAI的原始宗旨——追求盈利,而奥特曼则对此进行了否认。这不仅揭露了两位科技界领袖之间的裂痕,也反映了人工智能领域权力结构的变化。 在多年前,奥特…

    2024年3月7日
    0085
  • 如何利用ChatGPT写小说:开启创作新纪元

    在数字化浪潮席卷全球的背景下,人工智能技术的发展日新月异,为各行各业带来了前所未有的变革。其中,ChatGPT作为一款领先的自然语言处理模型,以其强大的语言理解和生成能力,正在逐渐改变着文学创作的方式。今天,我们就来探讨一下如何利用ChatGPT写小说,开启创作新纪元。 ChatGPT是一款基于深度学习技术的自然语言处理模型,它不仅能够理解人类的语言,还能够…

    2024年3月11日
    0085
  • 埃隆·马斯克诉讼OpenAI:商业化争议与微软竞争背后的故事

    周五,埃隆·马斯克将OpenAI告上法庭,表面上是因为他认为OpenAI偏离了其初衷,转而追求利润。但深入观察,不难发现马斯克似乎又在与微软发生冲突。马斯克与微软之间的矛盾并非首次曝光,此前他因不满Windows 11必须登录微软账号而公开抨击微软。 本次纠纷始于马斯克在3月1日对OpenAI及其CEO山姆·阿尔特曼提起的诉讼,指责他们违背了OpenAI的创…

    2024年3月4日
    0062
  • 超强DALL-E3提示词技巧合集

    ChatGPT中的DALL·E 3最大亮点在于其支持自然语言交互,为用户提供了前所未有的便捷体验。在官方介绍中,有这样一段引人注目的叙述:“不同于现代文本到图像系统常常忽视文字描述,迫使使用者学习复杂的即时工程技巧,DALL·E 3 的出现,象征着我们在生成完全符合用户文本描述的图像能力上迈出了飞跃性的一步。”这段话不仅彰显了DALL·E 3仅通过文字就能精…

    2024年3月25日
    00634
  • ChatGPT爆火出圈:人工智能新纪元的风向标

    在科技日新月异的今天,人工智能领域迎来了一个引人瞩目的新星——ChatGPT。这款基于人工智能技术的对话生成模型,自推出以来便迅速走红,成为了科技圈和公众关注的焦点。那么,ChatGPT究竟有何魅力,能够在短时间内爆火出圈,引领人工智能的新潮流呢? ChatGPT的火爆并非偶然。其强大的自然语言处理能力、智能的对话生成技术以及广泛的应用场景,都为它赢得了广泛…

    2024年3月12日
    00101

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

关注微信
Sora改变AI认知方式,开启走向「世界模拟器」的史诗级的漫漫征途。