有趣的地方

有趣的地方

OpenAI Sora最新文生视频大模型使用指南

一、什么是Sora

    2024年1月16日,OpenAI正式发布人工智能文生视频大模型Sora(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”)。

    Sora继承了DALL-E3的画质和遵循指令能力,可以根据文本指令创建逼真和富有想象力的场景。该模型能理解和模拟真实物理世界,能够生成具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中的要求,还了解这些东西在现实世界中的物理规律和存在方式。其目的是帮助人们解决需要现实世界互动的问题。

    该模型对语言有着深刻的理解,使其能够准确地解释提示,并生成令人信服的人物,表达充满活力的情感。Sora还可以在一个生成的视频中创建多个镜头,模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格。

    目前,Sora仅向一些视觉艺术家、设计师、电影制作人等开放了访问权限。(不要被割韭菜了)还是奥特曼会玩,他开启了在线接单模式,用户只需拿着提示词在X平台上@sama,就有可能收到一份生成的视频。

二、Sora生成的AI视频及其提示词

OpenAI在官网上直接放出了48个Sora生成且未经修改的视频。 感兴趣的朋友可以去官网查看,以下展示部分视频,并且一一介绍:

Prompt 1:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

中文提示词 1:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。

tokyo-walk-CSDN直播

Prompt 2:A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

中文提示词 2:这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。

mitten-astronaut-CSDN直播

Prompt 3:A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.

中文提示词 3:这是一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。用手机相机拍摄的。

lagos-CSDN直播

Prompt 4The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

中文提示词 4:摄像机跟在一辆黑色车顶架的白色复古SUV后面,它在陡峭的山坡上沿着松树环绕的陡峭土路加速行驶,灰尘从轮胎上扬起,阳光照在越野车上,在土路上加速行驶,在现场投下温暖的光芒。这条土路弯弯曲曲地延伸到远处,看不到其他的汽车或车辆。道路两旁的树木都是红杉,点缀着一片片绿色植物。从后面看到的汽车跟随曲线轻松,使它看起来好像是在崎岖不平的地形上行驶。土路本身被陡峭的丘陵和山脉包围,上面是清澈的蓝天和缕缕的云。

 suv-in-the-dust-CSDN直播

Prompt 5:The story of a robot’s life in a cyberpunk setting.

中文提示词 5:一个机器人在赛博朋克背景下的生活故事。

robot-video-game-CSDN直播

Prompt 6:Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.

中文提示词 6:蓝色时段的圣托里尼鸟瞰图,展示了白色基克拉迪建筑和蓝色圆顶的惊人建筑。火山口的景色令人叹为观止,灯光营造出一种美丽、宁静的氛围。  

santorini-CSDN直播

三、Sora功能概述

优点

  • 视频时长:Sora可以快速制作最长一分钟、可一镜到底视频。

  • 静态图生成视频:Sora还具备根据静态图像生成视频的能力,能够让图像内容动起来,并关注细节部分,使得生成的视频更加生动逼真,这一功能在动画制作、广告设计等领域具有应用前景。

  • 视频扩展与缺失帧填充:Sora能够获取现有视频并对其进行扩展或填充缺失的帧,可以帮助用户快速完成视频内容的补充和完善。

缺点

    Sora也存有以下弱点:可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件。 

四、Sora技术概述

  • 多帧预测与生成:Sora是一种扩散模型,它从一个看起来像静态噪声的视频开始生成视频,并通过多次去除噪声来逐渐变换视频。

  • Transformer架构:与GPT模型类似,Sora使用了Transformer架构,释放了卓越的扩展性能。

  • 重述提示词:Sora建立在过去对DALL·E和GPT模型的研究基础上。它使用了DALL·E 3中的重述技术,该技术涉及为视觉训练数据生成高度描述性的字幕。因此模型能够更忠实地遵循用户在生成的视频中的文本指令。

  • 数据表示方式:我们将视频和图像表示为称为Patch的较小数据单元的集合,每个数据单元类似于GPT中的token。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散转换器,跨越不同的持续时间、分辨率和纵横比。

发表评论:

Powered By Z-BlogPHP 1.7.3

© 2018-2020 有趣的地方 粤ICP备18140861号-1 网站地图