ИИ может заменить актеров и режиссеров: бот SORA делает невероятно реалистичные видеоролики на основе текстовых описаний
Известная во всем мире своим чат-ботом ChatGPT компания OpenAI представила 15 февраля новую генеративную модель искусственного интеллекта Sora. Она позволяет генерировать по текстовому описанию видеоролики, реалистичность которых изумляет, сообщает Forbes.
Появление такого инструмента вызвало еще больше опасений насчет развития дипфейков (методика синтеза изображения, основанная на искусственном интеллекте), а также того, существование каких профессий Sora может поставить под угрозу уже сейчас.
Эксперты объяснили, как OpenAI удалось создать такую модель, где ее можно использовать и почему риски применения такой модели могут быть преувеличены.
Почему Sora — не шаг, а гигантский скачок
Примерно месяц назад Google анонсировал работу нейросети Lumiere, которая умеет генерировать 5-секундные ролики с разрешением 512×512 пикселей. И теперь OpenAI сделала, казалось бы, невозможное — создала генеративную модель Sora с реалистичными минутными роликами.
OpenAI обучал модель на видеороликах в оригинальном разрешении, как FullHD (1920×1080), а не на коротких видео с разрешением 512х512, как это было принято. Поэтому Sora может создавать и вертикальные, и горизонтальные видео, а также уходить от привычных квадратных генеративных роликов.
Успех OpenAI в том, что они разработали нейросеть на основе подхода, аналогичного DALL-E 3 (третье поколение нейросети Dall-E от Open AI, конкурента Midjourney и Stable Diffusion, позволяет генерировать картинки в разных стилях). Сначала они обучают отдельную модель для написания короткого, но точного описания видео. Потом с помощью GPT-4V (функция ChatGPT, благодаря которой нейросеть распознает изображения и учитывает их при ответе) создают детализированные описания получая большое количество качественных и вариативных описаний видео для обучения Sora.
Кроме того, архитектура Sora позволяет не просто генерировать отдельные фрагменты видео, но и соединять их в единое целое. Это открывает возможности для создания длинных и связных видеороликов, ранее недоступных для AI-генерации. В итоге мы получаем реалистичные видео высокого качества до одной минуты.
Страха нет
С появлением такой мощной технологии, как Sora, конечно же, возникают риски злоупотребления. Даже к текущим генераторам картинок есть много вопросов касательно их неправомерного использования — генерации фейкового и запрещенного контента. Например, так было с Midjourney, когда люди стали генерировать реалистичные изображения с Дональдом Трампом или папой Франциском. С видео все выходит на совершенно новый уровень, ведь теперь можно сгенерировать любой инфоповод и подкрепить его видеопруфом (фейком). OpenAI понимает это и принимает меры для защиты от потенциальных рисков. Так, согласно информации на сайте компании, они разрабатывают инструменты выявления фейкового и запрещенного контента.
Более того, в AI research community активно ведутся работы по маркировке генеративного контента — возможно, в скором времени в каждом браузере будут встроенные generative-AI detectors. Важную роль играет и просветительская работа, ведь именно люди создают видео, а не сама AL/ML-модель. Нужно научиться понимать новые технологии и уметь ими пользоваться, а не бояться их.
Влияние на профессии
Без сомнений, Sora окажет заметное влияние на индустрию видеопродакшна. Например, можно будет в короткие сроки создать качественные рекламные ролики (до минуты). Но важно понимать, что в ближайшей перспективе нейросеть не сможет полностью заменить профессиональные видеостудии и креаторов — на данном этапе Sora не обучена создавать, например, фильмы, а также подобный качественный и длительный контент.
Как это было ранее с генерацией картинок и текстов, видеоконтента сейчас станет больше, а его качество в среднем ухудшится. Но те, кто научится использовать Sora профессионально, останутся востребованными в индустрии.
Вам может быть интересно: главные новости Нью-Йорка, истории наших иммигрантов и полезные советы о жизни в Большом Яблоке – читайте все это на ForumDaily New York
Что касается стартапов, то Sora наглядно показала: генерировать реалистичные видео более чем возможно. Если начнут появляться проекты text-to-video, которые захотят занять прибыльную нишу, это не вызовет удивления. Но, как это часто бывает, успех вряд ли будет продолжительным. OpenAI в любой момент может анонсировать новые функции, которых ранее не было в Sora, и таким образом снова повысить планку для конкурентов.
Влияние на рекламу
История AI-прорывов показывает, что любая новая технология становится общедоступной в open-source в следующие полтора года после ее появления: сначала большие игроки рынка начнут активно пользоваться Sora (как это было с DALL-E и ChatGPT), а потом уже и все остальные.
Например, Sora предлагает безграничные возможности для маркетинга. Возможность создавать персонализированный и высококачественный видеоконтент способна радикально изменить подходы к рекламе и контент-маркетингу — генеративная реклама может полностью захватить рынок, в том числе и YouTube.
Sora не только задает новые стандарты качества видеопроизводства, но и меняет подходы к взаимодействию с аудиторией. У OpenAI получилось продемонстрировать потенциал развития искусственного интеллекта. Вполне возможно, что на горизонте скоро появятся и другие технологические прорывы, которые нас так же удивят.
Читайте также на ForumDaily:
Из какого штата лучше всего наблюдать солнечное затмение в апреле 2024 года
В США можно въехать по просроченной неиммиграционной визе: как это сделать
Подписывайтесь на ForumDaily в Google NewsХотите больше важных и интересных новостей о жизни в США и иммиграции в Америку? — Поддержите нас донатом! А еще подписывайтесь на нашу страницу в Facebook. Выбирайте опцию «Приоритет в показе» — и читайте нас первыми. Кроме того, не забудьте оформить подписку на наш канал в Telegram и в Instagram— там много интересного. И присоединяйтесь к тысячам читателей ForumDaily New York — там вас ждет масса интересной и позитивной информации о жизни в мегаполисе.