Heygen — нашумевшая нейросеть для перевода видео

Источник:
Партнерский материал
13.09.2023 14:29

Искусственный интеллект начинает захватывать рынок видео. ChatGPT ориентирован на текст, Midjourney работает с сюжетными образами. Логичный шаг вперед — это полностью сгенерированное видео, неотличимое от настоящего. На новом рынке уже работают десятки компаний, ведущим игроком является лондонский Synthesys, но нашумела, как обычно, Кремниевая долина.

Что такое HeyGen?

Heygen — это калифорнийский проект, для автоматизации создания видеороликов с помощью нейросети. Платформа переводит видео, озвучивает заданный текст, клонирует голоса, оживляет фото, создает сгенерированные нейросетью ролики. Кстати, сказать, есть аналогичный проект от русских разрабочиков — speeek.io, функционала меньше но переводить видеоролики тоже можно, причем в разы дешевле. Давайте разберемся как использовать перевод видео:

  • Продвижение продукта — собственного бренда или продажу услуг. Нейросеть поможет в создании персонализированных видеороликов, с единым логотипом, цветами и стилистикой бренда. Можно выбрать и стандартный голос бренда, один из 300+ доступных на сайте. Это замена тексту, визуализация стандартной рекламы. Таким образом, услуги можно продавать на новых для себя площадках: ТикТок, рилсы, сторис.

  • Дешевые рекламные ролики — не нужен диктор, помещение, оператор, платить агентствам мне требуется. Ролики подойдут для лендингов, где нужно проговорить тезисы в приятной форме. Компания предлагает более 100 аватаров, кроме которых есть возможность создать собственные.

  • Обучающие видео — алгоритм озвучит импортированный текст, расставит запятые и акценты. В отличие от синтезаторов речи, ИИ не ошибается с тоном и паузами, учитывает контекст и не требует столь долгого времени настройки каждого знака препинания. Достаточно написать сценарий, выбрать один из 300+ доступных языков, в том числе и русский, подобрать фон, аватар и эффекты. Простота важна, когда речь о видео длиной час и более.

  • Новостные сюжеты — это будет полезно для небольших региональных СМИ, и как только технология перешагнет эффект зловещей долины, а видео станут разнообразнее, сгенерированные новости заполонят небольшие новостные ресурсы. В России есть собственный сервис от Сбера для генерации новостных видео. Ранее был схожий прокт от mail.ru, но на 2023 год он недоступен.

Перевод видео на разные языки будет использоваться для выхода бизнеса и блогеров на иностранные рынки. Heygen предлагает более 40 языков. Прямо сейчас технология работает практически неотличимо от оригинала. На этом компания и выстрелила — с ее помощью перевели мемы на английский и немецкий. Современное сарафанное радио.

Как работает HeyGen?

Компания не раскрывает модель работы сервиса, но судить о механизме можно исходя из текущего развития технологий. Текст обнаруживается и строится с помощью автоматического распознавания речи (ASR) и технологии обработки временных последовательностей (LSTM). Первая выстраивает семантическую логику: знаки препинания, паузы, делит текст на смысловые группы, а вторая обеспечивает рекуррентную связь, помогая достроить результат с учетом прошлого опыта и контекста.

Липсинк основан на автоматической синхронизации движения губ. Это целый пласт технологий, который включает распознавание визуальных эквивалентов фонем, лицевые ориентиры, формантный подход к распознаванию речи, анализ артикуляции и позиции лица. Синхронизация губ, это флагман в переводе видео, поскольку только таким образом можно добиться близкого к реальности эффекта.

HeyGen позволяет клиентам сделать собственные аватары на основании своей внешности. Придется постараться. Компания выставляет следующие требования: нужно оборудование, что работает в 4к при 60 fps, зеленый экран на фоне, штатив или стабилизатор, полная тишина. Настроить минимум три источника света. Заплести волосы, убрать украшения зеленую и полосатую одежду. Борода тоже проблема. После записать видео со случайным набором слов, лишь бы ни одно из них не повторялось. Затем отчетливо произнести какую-либо речь, без кривляний, делая 2-х секундные паузы после каждого предложения. Не забыть о языке тела — привычных нам жестикуляций.

Да, это не так-то и просто.

Как пользоваться HeyGen?

Сначала нужно авторизоваться — с помощью аккаунта Google или входом Single Sign On (для бизнеса). Для Google нужна почта на gmail, регистрироваться необязательно. После входа открывается окно с выбором шаблонов, создания видео или аватара. Шаблоны очень похожи на Adobe, со слоями, редактированием отдельных элементов. Кто знаком с фотошопом, не потеряется.

Раздел видео требует отдельного пояснения. Нужно выбрать один из трех аватаров: анимированный мультипликационный, аватар на фоне окружения (офис, кафе, студия, кабинет), аватар без фона. После выбора открывается окно редактирования, где устанавливается текст, озвучка, скорость и тон голоса. Переводятся видео здесь. Для этого нужно предварительно залить свой файл через вкладку «Asset», дождаться, пока видео обработается, ИИ распознает текст, и нажать на кнопку перевода.

Сколько это стоит?

Плата разделяется на ежемесячную и ежегодную, причем вторая дает 20% скидку. Подробно о тарифах и доступных опциях:

  1. Бесплатно — один одноминутный ролик. Более 120 аватаров, 300 голосов, за отдельную плату голос можно клонировать (сгенерировать озвучку на всех доступных языках)

  2. От $29 до $239 в месяц — тариф для отдельных авторов. 15-120 минут видео в месяц, длительностью не более 5 минут. Без водяных знаков.

  3. От $89 до $899 — тариф для малого бизнеса. 30-300 видео в месяц, длительностью не более 20 минут. Разрешение 4К, доступ к API, приоритетная обработка (повышена скорость).

Цена для большого бизнеса (тариф Business plus) устанавливаются индивидуально. Ограничений на функционал нет. Компаний предоставитт инженеров, менеджеров, и в целом все что потребуется.