ФСБ учится имитировать голоса

25 июля 2011, 12:08, ИА Амител

Если вы слышите в телефонной трубке или на диктофонной записи голос знакомого — вы верите, что это действительно он. Скоро нам придется не доверять своему слуху. На днях ФСБ заказала интересную техническую разработку: систему имитации голоса. Задачу "исследовать для русского языка возможность имитации голоса заданной личности с cохранением высокой разборчивости речи" силовики предлагают решить за 13 месяцев. Об этом сообщает "Маркер ".

Наука о голосах

Войсковая часть № 35533 из подмосковного города Железнодорожного опубликовала на официальном сайте госзакупок сообщение о конкурсе. В одном из его лотов речь идет об "антропоморфных методах анализа и обработки речи". Задача ставится такая: разработать "способ автоматической верификации личности по голосу, а также способы изменения и имитации голоса заданной личности". На эти цели заказчик готов потратить 6 млн руб. Срок выполнения работ — не больше 13 месяцев.

Войсковая часть № 35533 — одно из подразделений ФСБ. В интернете легко найти подтверждения этому: например, решение о передаче профилактория и дошкольного учреждения с баланса в/ч 35533 ФСБ России в муниципальную собственность г. Железнодорожного.

Среди других проектов этого подразделения — автоматизированное составление текстового резюме звукозаписи (на это выделено 20 млн руб.); определение психоэмоционального состояния говорящего (7 млн руб.); нахождение в большом количестве записей тех, в которых звучит голос нужного человека (13 млн руб.).

Что уже сделано

Сегодня в мире уже работают системы идентификации личности говорящего. Так, в Мексике существует база данных голосов на 600 тыс. человек. Система (ее разработчик — петербургская компания "Центр речевых технологий" (ЦРТ)) может проводить 600 млн сравнений в сутки. С ее помощью местная полиция собирается, к примеру, определять личность похитителя по телефонному разговору с родственниками похищенного.

Прототипы систем имитации голоса уже существуют, рассказывает главный эксперт ЦРТ Сергей Коваль. Но пока специалисты легко отличают подделку. Сегодня для создания имитации требуется не менее часа речи нужного человека. Речь разрезают на мельчайшие кусочки (так называемые аллофоны звуков) и из них собирают нужные слова. Затем на сигнал надо наложить индивидуальную интонацию. Пока что "швы" между звуками видны специалистам, объясняет Коваль. Но эта задача будет решена, считает он. Это вопрос времени.

Комментарии 0

Лента новостей

Новости партнеров