Yandex Cloud представил масштабные обновления речевых технологий в Казахстане

14.04.2025 05:31
20 Min Read

Yandex Cloud представил масштабные обновления речевых технологий в Казахстане

Yandex Cloud обновил свои сервисы на базе речевых технологий и расширил их возможности для казахстанского бизнеса. Сервис речевой аналитики Yandex SpeechSense теперь работает с казахским языком, а в сервисе синтеза и распознавания речи Yandex SpeechKit появились голоса Сауле и Жанар.

Часть этих обновлений Yandex Cloud анонсировал на Yandex Scale Kazakhstan . В этой статье Елена Белоброва, руководитель направления по развитию речевых технологий Yandex Cloud, подробнее рассказывает о новых функциях, а также об особенностях развития речевых технологий в Казахстане и о том, что они дают бизнесу.

Зачем SpeechKit новые голоса

У бизнеса в Казахстане две основных задачи при работе с голосовыми помощниками. Первая – такая же, как и у бизнеса в любой другой стране: чтобы помощник общался естественно, в соответствии с ситуацией, то есть был эмпатичным. Вторая задача вытекает из локальных особенностей: в стране говорят по сути на трёх языках – казахском, русском и их смеси. Помощник должен бесшовно переключаться между языками в зависимости от того, на каком языке говорит клиент.

SpeechKit работает с казахским языком с 2021 года. Первым голосом была Амира. Она знает только казахский и общается нейтральным тоном. Вторым появился Мади. Он говорит и на русском, и на казахском, его амплуа – серьёзное, брутальное. Сейчас Мади используют более 100 организаций в Казахстане.

Компании просили создать и женский голос – более мягкий и улыбчивый, тоже владеющий двумя языками. Так в конце 2024 года появилась Сауле, а в марте 2025-го – Жанар.

Они обе говорят на русском и казахском и поддерживают разные сценарии коммуникаций с клиентом. Например, при продаже услуг и поддержке уместен голос «с улыбкой». Но когда обращение связано с негативом, такой тон может восприниматься как насмешка над проблемой клиента. Для этого есть более серьёзный вариант голоса. А медицинские организации могут напоминать клиентам о записи эмпатичным тоном, так как обращение к врачу – чувствительная тема.

Для всех этих ситуаций у Сауле и Жанар доступно три амплуа:

нейтральное, доброжелательное;
«с улыбкой»;
эмпатичное и серьёзное.

Голоса могут говорить шёпотом. Эта опция нужна, например, когда клиент звонит поздно вечером или сам обращается шёпотом, чтобы не мешать кому-то рядом.

А если компания хочет говорить уникальным голосом, мы делаем кастомный синтез речи в рамках сервиса SpeechKit Brand Voice. Заказчик может выбрать голос актёра, сотрудника и любой другой. Мы запишем его и на основе записи создадим модель синтеза речи.

Вместе с добавлением новых голосов мы совершили ещё один важный шаг по локализации SpeechKit – развернули его в дата-центре в Караганде. Это позволяет хранить и обрабатывать данные на территории Казахстана. Раньше компании и госучреждения, которым требуется обрабатывать данные внутри страны, могли использовать только специализированные on-premise-версии.

В чём особенность разработки речевых технологий в Казахстане

Казахский стал вторым языком в SpeechKit – мы добавили его сразу после русского. И столкнулись с новой для себя ситуацией, когда модели должны одинаково хорошо синтезировать речь на русском, казахском и смешанном. И распознавать диалоги на любом из этих языков.

Нам пришлось переработать подход к обучению нейросетей. Сейчас в сервисе есть модель, которая понимает только казахскую речь, а есть та, которая сама определяет язык и исходя из этого распознает речь. И синтез должен работать в соответствии с двуязычным сценарием.

Это ещё больше повышает требования к дикторам, которые озвучивают новые голоса синтеза. Процесс выбора дикторов устроен достаточно сложно. Сначала мы проверяем голос примерно по 20 техническим критериям. В частности, диктор должен иметь отличную артикуляцию и правильно дышать, чтобы не было слышно вдохов между словами.

Далее оцениваем эмоциональную составляющую: голос должен быть приятным. На основе всех этих параметров составляем скоринговую таблицу, расставляем баллы по каждому пункту и делаем выбор. В Казахстане мы делаем это отдельно для русского и казахского языков, что сокращает количество успешных кандидатов.

Как технологии синтеза и распознавания речи помогают бизнесу

Традиционно речевые технологии наиболее популярны в сферах телекома, финансов и ритейла (на эти отрасли приходится более 65% доли рынка по данным нашего исследования). Другие крупные направления – государственные компании и компании-разработчики, которые поставляют решения на основе наших технологий.

Среди основных сценариев использования – автоматизация голосового сервиса, помощники приложениях и на сайтах, а также озвучка аудиокниг.

Автоматизация голосового сервиса помогает в ситуациях, когда нужно отвечать на однотипные запросы, например о балансе средств, готовности документов, записи на приём. Голосовой робот, интегрированный с базой данных компании, может получать из неё всю необходимую информацию и полноценно помогать пользователям в контакт-центре или справочной.

Также голосовые роботы позволяют справляться с резким масштабированием, когда количество звонков увеличивается в разы, и освобождают операторов от рутинной работы и неприятных сценариев, при которых сотрудники быстро выгорают. Например, это напоминания об оплате и холодные продажи.

Голосовые помощники в мобильных приложениях и на сайтах используются для упрощения работы пользователей в приложениях банков, ритейлеров и др.

Озвучка аудиокниг – менее очевидный, но уже очень распространённый сценарий. Это быстрее и дешевле, чем озвучка с помощью чтецов. Слова и разделы в книге можно выделять с помощью отдельных амплуа. Есть возможность менять скорость речи: для сносок – быстрее, для диалогов – размереннее. Например, сервис «Литрес» использует синтезированные голоса на основе SpeechKit в своём проекте «Чтец».

Как реагируют пользователи

Взаимодействие с роботом и реакция на него различается для входящих и исходящих звонков.

При входящем звонке пользователь сам хочет получить информацию, и чем лучше робот ему помог, тем вероятнее человек захочет обратиться к нему в следующий раз.

Важно не скрывать, что это ИИ: при общении с роботом человек формулирует мысли более конкретно, и помощник лучше его понимает.

По исходящим звонкам в холодных продажах ситуация иная. Их конверсия в целом невысокая, и если человек понимает, что звонит робот, чаще всего сразу кладёт трубку. Поэтому робота делают максимально похожим на живого оператора и начинают с цепляющей фразы.

Если собеседник заинтересовался, звонок переводят либо на помощника с синтезом речи, который учитывает различные детали разговора, либо на оператора.

Что даёт бизнесу речевая аналитика на казахском

С марта 2025 года сервис речевой аналитики Yandex SpeechSense поддерживает казахский язык. SpeechSense позволяет анализировать любые виды коммуникаций: диалоги в контакт-центрах, чаты, отзывы клиентов, записи разговоров в точках продаж.

Теперь вне зависимости от языка – казахский, русский или их смесь – технология распознаёт контекст и выявляет тему диалога, проблемы клиента и делает резюме разговора.

Речевая аналитика позволяет контролировать работу контакт-центров гораздо эффективнее, чем вручную. При обычном контроле супервизор прослушивает порядка 5% разговоров и не может выявить диалоги, после которых нужно срочно перезвонить клиенту, чтобы допродать услугу, извиниться и т.п.

Также супервизоры практически не могут делать выводы из отзывов клиентов – например, понять, что клиенты жалуются на работу конкретной функции в приложении. А ещё даже в крупных организациях зачастую нет точной разбивки по категориям входящих звонков, либо она очень трудозатратна. Так что компания может не знать, на какие зоны роста обратить внимание, чтобы сократить число обращений в контактный центр.

Речевая аналитика позволяет:

контролировать качество всех коммуникаций за счёт анализа 100% диалогов;
сократить бюджет на проверку качества;
исключить ошибки, связанные с человеческим фактором, при анализе;
узнать, что клиенты говорят про продукт, чего им не хватает, что работает не так;
увеличить конверсию в продажи;
повысить удовлетворённость пользователей.

Клиент получает более качественный сервис за счёт того, что повышается контроль поддержки, а вместе с ним и соблюдение стандартов. Плюс информация из обращений передаётся команде продукта, так что руководители продуктов лучше понимают боли и потребности пользователей.

По нашим данным, покрытие речевой аналитики в сегменте крупных компаний составляет 50-60%, а в средних – 20-30%. Так что огромное количество информации, которая помогла бы повысить качество обслуживания и увеличить конверсию в продажи, не доходит от пользователей к компании.

Как определить эффективность

Чем больше у бизнеса однотипных звонков, тем выше будет эффект от автоматизации.

Голосовые роботы повышают эффективность колл-центров численностью от 50 операторов. Это порог, с которого автоматизация позволяет экономить на коммуникациях.

Например, IT-компания Kolesa Group за счёт голосового робота на базе SpeechKit вдвое сократила нагрузку на колл-центр. Робот обзванивает 80% пользователей по заданному сценарию, а конверсия из звонка в действие выросла на 20%. Казахстанская сеть электробытовой и компьютерной техники Technodom Operator с помощью робота сократила время обработки обращений с нескольких дней до 3 часов.

Речевая аналитика экономически выгодна уже от пяти операторов, так что её сфера применения ещё шире. Причём автоматизацию контакт-центра не всегда используют вместе с аналитикой: не всем компаниям выгодно и то, и другое.

Например, бизнесу со сложными диалогами в контакт-центрах трудно полагаться на роботов. Зато такие компании ускоряют оценку качества и другие процессы за счёт аналитики. Допустим, в IT-поддержке технических продуктов, где большинство вопросов требует экспертных знаний, автоматизировать колл-центр с помощью голосовых роботов будет невыгодно. При этом там, как и в любой поддержке, важно соблюдать критерии качества, поэтому нужна речевая аналитика.

«Мы начали использовать систему речевой аналитики Yandex SpeechSense, так как нам нужно было повысить контроль качества консультаций в фармацевтической сфере. Важно было найти такое решение, которое поможет анализировать диалоги, отслеживать корректность предоставляемой информации и выявлять точки роста для улучшения клиентского сервиса. Сервис позволяет нам систематизировать работу с чатами и получать ценные инсайты для развития процессов», – делится Арысбек Анель, руководитель компании Aq Niet Group.

Очень хороший экономический эффект даёт применение речевой аналитики в продажах. Даже простое соблюдение всех этапов продаж, таких как выявление потребностей, презентация предложения, отработка возражений и закрытие сделки, ощутимо повышает конверсию. В речевой аналитике очень быстро можно выявить лучшие практики продаж и масштабировать их на других менеджеров. А также определить, какие тезисы и приёмы приводят к потере сделки и больше их не использовать.

Важно понимать, что автоматизация меняет роль оператора и повышает его значимость. В автоматизированном колл-центре у специалиста нет задачи рассказывать, как активировать карту. От него требуется помощь в сложных вопросах и другой уровень экспертности. Учёт разных сценариев при роботизированном общении повышает комфорт пользователя и, как следствие, – качество клиентского сервиса и доверие к голосовым помощникам. Вместе с речевой аналитикой это позволяет существенно менять пользовательский опыт, при этом с экономией для бизнеса.