Конкурент Sora научился генерировать видео со сложным монтажом
Китайский разработчик Kuaishou представил третью версию модели для генерации видео Kling AI.
Модель объединяет несколько задач: преобразование текста, изображений и референсов в видео, добавление или удаление контента, модификация и трансформация роликов.
Длительность видео увеличилась до 15 секунд. Среди других улучшений — более гибкое управление кадрами и точное следование промптам. Улучшен общий реализм: движения персонажей стали выразительнее и динамичнее.
Сравнение Kling VIDEO 3.0 с Kling VIDEO 2.6. Источник: Kling AI.Новая функция Multi-Shot анализирует промпт, определяя структуру сцены и типы кадров. Инструмент автоматически настраивает ракурсы камеры и композицию.
Модель поддерживает различные монтажные решения: от классических диалогов по схеме «кадр-контркадр» до параллельного повествования и сцен с закадровым голосом.
Помимо стандартной генерации видео по изображению, Kling 3.0 поддерживает сразу несколько картинок в качестве референсов, а также видео-исходники в роли элементов сцены.
Модель фиксирует характеристики персонажей, предметов и эпизода. Независимо от движения камеры и развития сюжета, ключевые объекты остаются стабильными и согласованными на протяжении всего видео.
Разработчики усовершенствовали нативное аудио: система точнее синхронизирует речь с мимикой, а в сценах с диалогами позволяет вручную указывать конкретного спикера.
Расширен список поддерживаемых языков: китайский, английский, японский, корейский и испанский. Также улучшена передача диалектов и акцентов.
Кроме того, команда обновила мультимодальную модель O1 до Video 3.0 Omni.
Источник: Kling AI.Есть возможность загрузить аудио с речью от трех секунд и извлечь голос или записать видео с персонажем от трех до восьми секунд для получения его основных характеристик.
Конкуренты Sora наступают
OpenAI представила модель видеогенерации Sora в феврале 2024 года. Инструмент вызвал восторг в соцсетях, однако публичный релиз состоялся лишь в декабре.
Спустя почти год пользователям открыли доступ к генерации видео по текстовым описаниям, «оживлению» изображений и дополнению готовых роликов.
iOS-приложение Sora вышло в сентябре и сразу привлекло внимание аудитории: в первый день его установили более 100 000 раз. Сервис преодолел отметку в 1 млн загрузок быстрее ChatGPT, несмотря на доступ по приглашениям.
Однако вскоре тренд развернулся. В декабре количество скачиваний сократилось на 32% относительно предыдущего месяца. В январе нисходящая динамика сохранилась — приложение загрузили 1,2 млн раз.
Источник: Appfigures.Спад обусловлен рядом факторов. Во-первых, конкуренцию обострила модель Nano Banana от Google, которая укрепила позиции Gemini.
Sora также соперничает с Meta AI и ее функцией Vibes. В декабре давление на рынок усилил стартап Runway, чья модель Gen 4.5 превзошла аналоги в независимых тестах.
Во-вторых, продукт OpenAI столкнулся с проблемой нарушения авторских прав. Пользователи создавали видео с популярными персонажами вроде «Губки Боба» или «Пикачу», из-за чего компании пришлось усилить ограничения.
В декабре ситуация стабилизировалась после заключения соглашения с Disney, которое позволило юзерам генерировать видео с персонажами студии. Однако это не привело к росту загрузок.
Напомним, в октябре дипфейки с Сэмом Альтманом заполонили Sora.
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!



