WhiteBambr
WhiteBambr
Просветленный
- Регистрация
- 22/08/2023
- Сообщения
- 292
- Репутация
- 388
Сейчас, в 2025 году, нейросетевой голос по-прежнему звучит так, будто читает инструкцию к стиральной машине в пустом аэропорту. Но это временно. Уже через два–три года появятся EAI - EmotionAI: системы, которые не просто скажут «я рад за вас», а заставят вас поверить, что вам рады в самом деле. И да - это уже не фантастика, а технологическая траектория, по которой мы мчимся со скоростью экспресса «Пекин–Шанхай».
Эмоции в речи - это ритм, тембр, длительность пауз, высота тона, микросрывы, дыхание. Всё это можно измерить, проанализировать и воспроизвести. И уже воспроизводится.
Вот лишь несколько систем, которые сегодня делают это достаточно хорошо, чтобы вас насторожить:
И здесь возникает парадокс: чем «идеальнее» становится ИИ-голос, тем ценнее становится неидеальный живой. Потому что идеальность - усреднена. А человек уникален, даже когда говорит с дефектом или акцентом.
И да - бумажные книги тут ни при чём
К слову, я отказался от бумажных книг лет десять назад. Не из фанатизма, а потому что цифра удобнее в хранении, транспортировки и даже чтении. Но я не осуждаю тех, кто нюхает старые страницы и хранит дома библиотеку с лёгким оттенком плесени. Это не ностальгия - это сенсорная идентичность. Так же, как спустя столетие после появления фотографии, люди по-прежнему платят за масляные портреты.
Именно поэтому найдутся те, кто будет платить за «живой» голос - не потому что он лучше, а потому что он человеческий. С дрожью, с ошибкой, с акцентом, с историей.
А ИИ? Он станет невидимым. Как электричество. Ты не замечаешь его - пока он не исчезает. Но он уже везде. И скоро начнёт говорить так, что ты перестанешь отличать - где человек, а где алгоритм, который притворяется человеком так убедительно, что разница перестанет иметь значение.
Эмоции это не магия, а паттерны
Главная ошибка тех, кто боится (или, наоборот, ждёт) эмоциональных ИИ, считать эмоции чем-то «неподвластным алгоритму». Но ведь актёр не рождается с «грустью» в голосе он её играет, тренирует, практикует. Попугай имитирует интонации хозяина. Даже собака лает по-разному, в зависимости от того, видит ли она кота или пустую улицу.Эмоции в речи - это ритм, тембр, длительность пауз, высота тона, микросрывы, дыхание. Всё это можно измерить, проанализировать и воспроизвести. И уже воспроизводится.
Вот лишь несколько систем, которые сегодня делают это достаточно хорошо, чтобы вас насторожить:
- ElevenLabs (США): позволяет задавать эмоции через промт - «angry», «cheerful», «terrified» - и реально слышать разницу. Их голоса уже используют в инди-играх, подкастах и даже рекламе.
- Play.ht и Murf.ai: позволяют не просто менять интонацию, но и создавать «голосовые аватары» - цифровые копии живых людей.
- iFlytek (Китай): нацелен на китайскоязычный рынок, но его синтезаторы настолько хороши, что используются в госсекторе от банков до железнодорожных станций.
- Microsoft VALL-E X: экспериментальная модель, способная воссоздать голос по трёхсекундной записи и при этом «прочитать» любой текст с нужной эмоцией.
Но копия - не оригинал. Особенно если оригинал тебе не нравится
Я за год примерно слушаю около сотни аудиокниг разных жанров. Около 10% бросаю в самом начале или ближе к середине не из-за сюжета, а из-за голоса. Особенно женских озвучек: менее 2% из всех прослушанных книг были озвучены женщинами. Не из предубеждения - просто физиологически не воспринимаю. Это как вкус петрушки: для кого-то приятный аромат, для кого-то мыло.И здесь возникает парадокс: чем «идеальнее» становится ИИ-голос, тем ценнее становится неидеальный живой. Потому что идеальность - усреднена. А человек уникален, даже когда говорит с дефектом или акцентом.
Синтетические звёзды уже в чартах
Кстати, «цифровые голоса» давно не фантастика. Они уже:- Поют в чартах: виртуальная певица Hatsune Miku (Япония) с 2007 года даёт живые концерты с голографической проекцией и поклонниками, которые платят за билеты реальные деньги. Её голос - продукт Vocaloid, синтезатора вокала.
- Становятся инфлюенсерами: Lil Miquela - цифровая девушка с 3 млн подписчиков в Instagram, рекламирует Prada и Calvin Klein. У неё есть «мнения», «эмоции» и даже «личная драма».
- Играют в кино: в 2023 году студия Metaphysic (та самая, что создала «молодого Де Ниро» в рекламе) представила полностью синтетических актёров, способных читать текст с заданной эмоцией и делать это лучше, чем половина начинающих актёров.
- Записывают хиты: в 2023 году трек с «голосом» Дрейка и The Weeknd, созданный с помощью ИИ, взорвал TikTok и был удалён только после вмешательства лейбла. Но факт остаётся: миллионы людей слушали, верили и пели подпевку синтетическому вокалу.
Что будет с живыми дикторами?
Через 5–6 лет рынок развалится на два слоя:- Массовый слой - автоматизированный, дешёвый, быстрый. Аудиокниги, обучающие курсы, IVR-системы, дубляж сериалов «для фона» почти всё это будет синтетическим. И качество будет достаточным, чтобы устроить 95% аудитории.
- Премиальный слой - где голос становится брендом. Здесь дикторы не исчезнут, а превратятся в голосовых кураторов: они будут обучать ИИ своему голосу, продавать лицензии на него, выставлять условия - «только драма», «только сарказм», «не озвучивать рекламу табака». Как сегодня художники продают NFT или авторские принты.
И да - бумажные книги тут ни при чём
К слову, я отказался от бумажных книг лет десять назад. Не из фанатизма, а потому что цифра удобнее в хранении, транспортировки и даже чтении. Но я не осуждаю тех, кто нюхает старые страницы и хранит дома библиотеку с лёгким оттенком плесени. Это не ностальгия - это сенсорная идентичность. Так же, как спустя столетие после появления фотографии, люди по-прежнему платят за масляные портреты.
Именно поэтому найдутся те, кто будет платить за «живой» голос - не потому что он лучше, а потому что он человеческий. С дрожью, с ошибкой, с акцентом, с историей.
А ИИ? Он станет невидимым. Как электричество. Ты не замечаешь его - пока он не исчезает. Но он уже везде. И скоро начнёт говорить так, что ты перестанешь отличать - где человек, а где алгоритм, который притворяется человеком так убедительно, что разница перестанет иметь значение.
