ИИ может заменить актеров и режиссеров: бот SORA делает невероятно реалистичные видеоролики на основе текстовых описаний
Известная во всем мире своим чат-ботом ChatGPT компания OpenAI представила 15 февраля новую генеративную модель искусственного интеллекта Sora. Она позволяет генерировать по текстовому описанию видеоролики, реалистичность которых изумляет, сообщает Forbes.

Фото: iStock.com/hapana Onphalai
Появление такого инструмента вызвало еще больше опасений насчет развития дипфейков (методика синтеза изображения, основанная на искусственном интеллекте), а также того, существование каких профессий Sora может поставить под угрозу уже сейчас.
Эксперты объяснили, как OpenAI удалось создать такую модель, где ее можно использовать и почему риски применения такой модели могут быть преувеличены.
Почему Sora — не шаг, а гигантский скачок
Примерно месяц назад Google анонсировал работу нейросети Lumiere, которая умеет генерировать 5-секундные ролики с разрешением 512×512 пикселей. И теперь OpenAI сделала, казалось бы, невозможное — создала генеративную модель Sora с реалистичными минутными роликами.
OpenAI обучал модель на видеороликах в оригинальном разрешении, как FullHD (1920×1080), а не на коротких видео с разрешением 512х512, как это было принято. Поэтому Sora может создавать и вертикальные, и горизонтальные видео, а также уходить от привычных квадратных генеративных роликов.
Успех OpenAI в том, что они разработали нейросеть на основе подхода, аналогичного DALL-E 3 (третье поколение нейросети Dall-E от Open AI, конкурента Midjourney и Stable Diffusion, позволяет генерировать картинки в разных стилях). Сначала они обучают отдельную модель для написания короткого, но точного описания видео. Потом с помощью GPT-4V (функция ChatGPT, благодаря которой нейросеть распознает изображения и учитывает их при ответе) создают детализированные описания получая большое количество качественных и вариативных описаний видео для обучения Sora.
Кроме того, архитектура Sora позволяет не просто генерировать отдельные фрагменты видео, но и соединять их в единое целое. Это открывает возможности для создания длинных и связных видеороликов, ранее недоступных для AI-генерации. В итоге мы получаем реалистичные видео высокого качества до одной минуты.
Страха нет
С появлением такой мощной технологии, как Sora, конечно же, возникают риски злоупотребления. Даже к текущим генераторам картинок есть много вопросов касательно их неправомерного использования — генерации фейкового и запрещенного контента. Например, так было с Midjourney, когда люди стали генерировать реалистичные изображения с Дональдом Трампом или папой Франциском. С видео все выходит на совершенно новый уровень, ведь теперь можно сгенерировать любой инфоповод и подкрепить его видеопруфом (фейком). OpenAI понимает это и принимает меры для защиты от потенциальных рисков. Так, согласно информации на сайте компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.
Более того, в AI research community активно ведутся работы по маркировке генеративного контента — возможно, в скором времени в каждом браузере будут встроенные generative-AI detectors. Важную роль играет и просветительская работа, ведь именно люди создают видео, а не сама AL/ML-модель. Нужно научиться понимать новые технологии и уметь ими пользоваться, а не бояться их.
Влияние на профессии
Без сомнений, Sora окажет заметное влияние на индустрию видеопродакшна. Например, можно будет в короткие сроки создать качественные рекламные ролики (до минуты). Но важно понимать, что в ближайшей перспективе нейросеть не сможет полностью заменить профессиональные видеостудии и креаторов — на данном этапе Sora не обучена создавать, например, фильмы, а также подобный качественный и длительный контент.
Как это было ранее с генерацией картинок и текстов, видеоконтента сейчас станет больше, а его качество в среднем ухудшится. Но те, кто научится использовать Sora профессионально, останутся востребованными в индустрии.
Вам может быть интересно: главные новости Нью-Йорка, истории наших иммигрантов и полезные советы о жизни в Большом Яблоке – читайте все это на ForumDaily New York
Что касается стартапов, то Sora наглядно показала: генерировать реалистичные видео более чем возможно. Если начнут появляться проекты text-to-video, которые захотят занять прибыльную нишу, это не вызовет удивления. Но, как это часто бывает, успех вряд ли будет продолжительным. OpenAI в любой момент может анонсировать новые функции, которых ранее не было в Sora, и таким образом снова повысить планку для конкурентов.
Влияние на рекламу
История AI-прорывов показывает, что любая новая технология становится общедоступной в open-source в следующие полтора года после ее появления: сначала большие игроки рынка начнут активно пользоваться Sora (как это было с DALL-E и ChatGPT), а потом уже и все остальные.
Например, Sora предлагает безграничные возможности для маркетинга. Возможность создавать персонализированный и высококачественный видеоконтент способна радикально изменить подходы к рекламе и контент-маркетингу — генеративная реклама может полностью захватить рынок, в том числе и YouTube.
Sora не только задает новые стандарты качества видеопроизводства, но и меняет подходы к взаимодействию с аудиторией. У OpenAI получилось продемонстрировать потенциал развития искусственного интеллекта. Вполне возможно, что на горизонте скоро появятся и другие технологические прорывы, которые нас так же удивят.
Читайте также на ForumDaily:
Из какого штата лучше всего наблюдать солнечное затмение в апреле 2024 года
В США можно въехать по просроченной неиммиграционной визе: как это сделать
Подписывайтесь на ForumDaily в Google NewsХотите больше важных и интересных новостей о жизни в США и иммиграции в Америку? — Поддержите нас донатом! А еще подписывайтесь на нашу страницу в Facebook. Выбирайте опцию «Приоритет в показе» — и читайте нас первыми. Кроме того, не забудьте оформить подписку на наш канал в Telegram и в Instagram— там много интересного. И присоединяйтесь к тысячам читателей ForumDaily New York — там вас ждет масса интересной и позитивной информации о жизни в мегаполисе.