В Объединенном институте проблем информатики Национальной академии наук Беларуси уже более 40 лет занимаются речевыми технологиями. Новое направление, предложенное бывшим заведующим лабораторией, а ныне – главным научным сотрудником доктором наук Борисом Лобановым – компьютерное клонирование голоса личности.
Эта технология позволяет воспроизводить произвольный текст с манерой чтения конкретного человека и его голосом, воссоздавать голоса известных личностей.
О перспективах развития речевых технологий «Завтра твоей страны» рассказала исполняющая обязанности заведующего лабораторией распознавания и синтеза речи Объединенного института проблем информатики Национальной академии наук Лилия ЦИРУЛЬНИК.
— В чем суть распознавания речи компьютером?
— Конечная цель распознавания речи – понимание компьютерной программой смысла высказывания человека и выполнение каких-то действий. Здесь две задачи. Первая — распознавание отдельных речевых команд. Например, вместо того, чтобы те или иные команды вводить с помощью клавиатуры или мышки, вы можете отдавать их голосом. Система ответит соответствующими действиями — выделит текст, скопирует, перейдет на строчку выше.
Систему можно использовать на производстве при работе со сложным оборудованием, когда вместо использования механических рычагов задействуются голосовые команды.
Вторая задача — это распознавание так называемой непрерывной речи. Это похоже на стенографирование. Так компьютер в виде текстового файла может выдать нашу с вами беседу.
— Синтез речи — это задача наоборот?
— Да. Синтезатор речи является компьютерной программой, которая по введенному тексту осуществляет голосовой вывод информации, а также создает звуковые файлы, соответствующие входному тексту. Хотите – программа прочтет вам Льва Толстого, хотите – газетную статью. Главное, чтобы изначально был текстовый файл.
— Чьим голосом прочтет?
— Любой текст любого размера может быть прочитан компьютером мужским либо женским голосом. С помощью оригинальной технологии мы можем создать персональный голос того или иного человека. При воспроизведении можно менять тембр голоса, скорость и громкость воспроизведения. Полученную речевую запись можно сохранять в различных форматах, например, в популярном среди любителей музыки МР3.
— Как на практике можно использовать синтезатор?
— С его помощью, например, могут создаваться аудиокниги. Конечно, профессиональный актер гораздо лучше озвучит аудиокнигу, чем компьютерная программа. Однако с использованием программы – синтезатора речи вы можете самостоятельно выбрать любую книгу для прослушивания и создать на ее основе звуковой файл.
Использование синтезатора речи актуально для незрячих и слабовидящих людей и востребовано, в частности, в информационных киосках, которые сейчас применяются в банках, аэропортах, на вокзалах. Информационные киоски выдают не только визуальную (выдаваемую на экран), но и звуковую информацию. Эта информация сейчас, как правило, записывается заранее и при необходимости воспроизводится. Однако при любом изменении ее нужно переписывать. Если использовать синтезатор речи, это упростит и удешевит задачу.
Еще один пример — информирование абонентов по телефону. Например, некоторым организациям приходится сообщать о задолженностях за квартплату, телефон. Здесь было бы также разумно использовать синтезатор речи.
Встроив синтезатор речи в программу работы с электронной почтой, можно прослушивать входящую корреспонденцию, выполняя одновременно какие-либо другие действия. Можно, например, перевести из электронного вида в аудио файл газету и слушать ей по дороге на работу.
— Много ли подобных систем существует в мире?
— Да, конечно, существуют для большинства современных языков. Есть несколько систем для русского языка, качество которых сравнимо с созданной у нас системой. Для белорусского же языка подобных систем нет. При разработке синтезатора речи для каждого языка есть свои особенности.
— Вы работаете над созданием синтеза речи для белорусского языка?
— Да. Пока качество программы нас не удовлетворяет.
— А в чем проблемы?
— Одной из основных особенностей при создании системы синтеза речи является разработка лингвистических и акустических информационных ресурсов. При синтезе речи по тексту необходимо знать, где в каждом слове поставить ударение. В белорусском языке (как и в русском) системы ударений нет, поэтому необходимо создать электронный словарь ударений, содержащий как можно большее число слов. Отдельной задачей является интонирование речи, которое в белорусском также особенное. Для придания синтезированной речи «правильной» интонации необходимо создать базу данных интонаций для белорусского языка. Для озвучивания произвольного текста необходимо также наличие речевой базы данных, содержащей все звуки данного языка и их основные оттенки. Такая база для русского языка содержит около 800 коротких звуковых отрезков. Для использования в синтезаторе белорусской речи ее необходимо пополнить звуками, специфичными для белорусского языка, такими как «У короткое», белорусское «Г», твердое «Ч», а также звуками «Дж» и «Дзь», и их основными оттенками, в итоге изменив базу на 30%.
— Насколько доступны ваши разработки для массового потребителя?
– Разработанную систему создания и озвучивания аудиокниг aBookForge мы предлагаем в виде программного продукта, который может приобрести любой пользователь. Институт заключил лицензионный договор с частной фирмой, которая и осуществляет продажи.
— А что за проект говорящая голова?
– Это программа аудиовизуального синтеза речи. Технология аудиовизуального синтеза речи включает не только озвучивание голосом текста, но и отображение головы и артикуляторных органов (губ, щек, нижней челюсти и т.д.) при произнесении этого текста. Существует два подхода для создания аудиовизуального синтезатора речи: создание стилизованной трехмерной модели «говорящей головы», а также создание персональной двумерной «говорящей головы» конкретного человека на основе фотографий его лица при произнесении определенных звуков.
Система аудиовизуального синтеза речи по тексту востребована не только людьми с проблемами зрения, но и слабослышащими, т.к. они могут читать «говорящую голову» по губам.
— На ваш взгляд, какие перспективы имеет развитие речевых технологий в Беларуси?
– В течение последних 15-20 лет речевые технологии получили бурное развитие. Системы распознавания речи, синтеза речи по тексту, идентификации и верификации голоса личности к настоящему моменту достигли высокого качества и используются во многих практических приложениях. Тем не менее, разрабатываются новые способы для улучшения качества существующих систем, а существующие системы используются во все новых практических сферах. Довольно высокий потенциал развития имеют речевые технологии и в Беларуси. Системы синтеза речи по тексту могут получить дальнейшее развитие и внедрение в практические системы озвучивания остановок на транспорте, системы обучения русскому/белорусскому языкам, инфокиоски.