ЧУДЕСА распознавания речи


ЧУДЕСА распознавания речи


Что можно узнать о человеке по его речи?

ОТ РЕДАКЦИИ САЙТА.

Мы не смогли пройти мимо этого поучительно-познавательного материала, связанного с российской наукой!



«Да практически все: пол, возраст, место, где человек прожил большую часть жизни, принадлежность к технической или гуманитарной сферам деятельности, эмоциональное состояние…

Более того, идентификация человека по его голосу уже достаточно надежна и наряду с идентификацией по отпечаткам пальцев вполне может быть использована для решения практических задач.

Все это позволяет мобилизовать речевые технологии на борьбу с терроризмом.

Впрочем, антитеррор – далеко не единственная сфера, где они с успехом применяются. Российские специалисты используют их и для других целей, благо в речевых технологиях (наряду с ракетостроением, космической отраслью) Россия занимает значимые позиции в мире. Одной из компаний, обеспечивающих лидерство в этой отрасли, является Центр речевых технологий. Беседу с ее генеральным директором Михаилом ХИТРОВЫМ, который является также вице-президентом консорциума «Российские речевые технологии», мы предлагаем читательскому вниманию.

— Михаил Васильевич, вы давно занимаетесь речевыми технологиями?

— «Центр речевых технологий» уже больше 18 лет работает в области создания разнообразных продуктов и технологий, связанных с речью.

— То есть ваш коллектив начал работу еще в советское время?

— Во времена СССР мы тоже занимались речью – в рамках государственных организаций создавали технологии в данной сфере. Наши достижения всегда были передовыми по мировым меркам. Кстати, тогда вместе со мной трудился один из специалистов – Валентин Сергеевич Мартынов, который в свое время работал в одном отделе с Солженицыным.

— Вы имеете в виду знаменитого писателя?

— Да. Александр Исаевич ведь тоже занимался в «шарашке» речевыми технологиями… («шарашка» – жаргонное слово, которым во времена Сталина называли секретные НИИ и КБ, где работали заключенные инженеры, конструкторы и т.д. – Прим. авт.).

Уровень знаний в этой области у нас был очень высокий, и на его основе мы создали компанию «Центр речевых технологий». И продолжили заниматься речевыми технологиями на мировом уровне. В число областей, где Россия и сегодня является лидером, кроме космонавтики и ракетостроения входит обработка речи.

— Какие возможности дает обладание передовыми речевыми технологиями? К примеру, что по речи можно узнать о говорящем?

— По речи о человеке можно узнать очень многое. Точнее, по фрагменту звукозаписи речи необходимой длительности. Можно определить, во-первых, кто говорит, что говорит, в каком состоянии и т.д.

Каждый человек обладает абсолютно уникальным речепреобразующим трактом, обусловленным физиологическими особенностями индивида. Параметры тракта (например, частота, с которой складываются голосовые связки, или же формантные частоты, резонансные частоты речепреобразующего тракта) абсолютно индивидуальны. По этим параметрам и по ряду других можно определять личность.

Кроме возраста и пола, определяется эмоциональное состояние человека – волнуется он или нет. На этой основе работает детектор лжи по голосу, то есть бесконтактный полиграф.

— А место жительства сможете определить?

— В принципе да. Можно определять это автоматически или автоматизированно, можно – с помощью экспертных исследований. Есть программы (их разрабатывали в том числе и мы), которые позволяют в «ручном» режиме посредством эксперта по звукозаписям установить, где, в каком регионе большую часть жизни прожил человек. Это определяется по его акценту с высокой вероятностью, хотя и не со стопроцентной.

— Речь идет только о русском языке и городах и регионах России?

— Методология, которой мы владеем, в принципе позволяет переносить эти же возможности и на другие языки. Мы, например, недавно выполняли работу по таджикскому языку и определяли диалекты отдельных областей. Это было связано с задачами, решаемыми правоохранительными органами.

В частности, к нам обратилась Федеральная служба по контролю за оборотом наркотических и психотропных средств – не секрет, что отдельные граждане Таджикистана выступают наркокурьерами. Так вот, мы создавали алгоритм определения по говору, откуда, из какого района Таджикистана говорящий.

— Область занятий, сферу деятельности человека вы тоже можете определить по голосу?

— Да, конечно. По речи, по словарному запасу, по тому, как человек пользуется словами, какие у него интонационные контуры, можно говорить о его культурологическом уровне, социальных характеристиках. Сейчас мы как раз заняты разработкой технологий, которые позволяют в автоматическом режиме определять подозреваемых.

— Как это происходит?

— Предположим, сотрудники правоохранительных органов ведут наблюдение за каким-то гражданином, у них есть звукозапись его речи, и этот гражданин попадает в город N. Так вот, система, о которой я говорю, может быть реализована на основе записи со всех GSM-каналов этого города. Программа обрабатывает весь трафик телефонов всего города, и как только этот человек хотя бы один раз позвонит по телефону в этом городе…

— Хоть по мобильному, хоть по обыкновенному?

— По любому. Хотя обычно используется мобильный, потому что он чаще является средством общения подозреваемых лиц.

Так вот, программа автоматически может выделить именно тот разговор, в котором участвовал этот человек, дать сигнал правоохранительным органам о том, что этот подозреваемый приехал в город N, и воспроизвести содержание разговора по телефону.

Такие программы тоже уникальны, фактически их больше нигде в мире нет. У нас есть несколько компаний-конкурентов за рубежом, но мы все-таки опережаем их. К примеру, совсем недавно в одной из латиноамериканских стран мы победили в тендере, в котором, кстати говоря, участвовали также испанцы и итальянцы.

В этой стране говорят по-испански, но мы – русские – сумели выиграть со счетом 40:17:1. То есть 40 голосов было отдано за нашу технологию, 17 – за итальянцев и только 1 – за испанцев.

Я привел этот пример для того, чтобы подчеркнуть, что

наши алгоритмы – языконезависимые, и они лучше, чем те, которые предлагают испанцы.

Эти новейшие программы и подходы позволяют успешно решать и другие задачи применительно к антитеррору. Например, осуществлять выделение ключевых слов в потоке речи.

Предположим, при приеме звонков от населения по телефону 02 в милиции набирается на клавиатуре слово «бомба», и программа автоматически просканирует все звукозаписи, полученные с телефонных звонков, и определит, в каком разговоре прозвучало это слово. Здесь тоже нет стопроцентной вероятности, могут быть какие-то ложные срабатывания, но в целом эта программа позволяет фильтровать и находить какие-то подозрительные слова.

— Вот, кстати, задача, может, и простая, но пока невыполнимая: в автоматическом режиме создавать на основе аудиозаписи документ Word.

— Мы работаем в области распознавания слитной речи без подстройки под диктора. Могу сказать, что в сфере распознавания английской речи американцы продвинуты лучше. Но даже у них (фирма «Нюанс» и др.) системы автоматического распознавания работают для определенного лексикона. Предположим, для больниц, где врачи в результате избавлены от писанины, потому что им достаточно наговорить в микрофон эпикриз…

Так вот, у медиков – свой собственный словарь, в котором много специфических слов и медицинских терминов. И у американцев есть системы распознавания для врачей. Для записи, предположим нотариусов, других юристов, делается отдельно программа под словарь юристов.

А программы для всего языка, для всего его многообразия, да еще чтобы она подходила для человека с любым акцентом независимо от того, заикается он или нет, сейчас не существует. Сделать-то ее можно, но она будет очень дорого стоить, и возникает вопрос: кому она нужна за такие деньги?

Свои разработки по распознаванию речи мы сейчас внедряем в системы голосового самообслуживания. Это так называемые системы IVR (Interactive Voice Response). Предположим, вы по телефону хотите заказать билет или получить справку. И, чтобы заменить барышню на другом конце провода, есть специальная программа IVR, которая занимается распознаванием и синтезом речи.

Сейчас говорят, что занятый телефон не есть признак современного общества. И если клиент звонит, телефон должен быть для него доступен и клиент сразу должен начать разговаривать с автоматом.

— Получается, автомат разговаривает с клиентом и сам оформляет его заказ?

— Да. И у нас есть такие программы. Предположим, я хочу лететь из Магадана во Владимир и звоню по указанному номеру. Автомат просит подтвердить: «Вы хотите лететь во Владимир?» Я подтверждаю, и автомат мне называет рейсы, время вылета и предлагает выбрать один из них. Я выбираю и заказываю билет. Все это происходит в автоматическом режиме. При этом, если клиент все-таки захочет решить свой вопрос, общаясь с оператором, а не с машиной, у него будет и такая возможность.

В США в систему «American Airlines» поступает около 20 млн. звонков в год. И было бы просто немыслимо ответить на эти звонки одним лишь барышням, без помощи системы голосового обслуживания. Такие системы в Соединенных Штатах получили широкое распространение, да и у нас в последние годы начинается их внедрение.

Эти системы хороши и для антитеррора, и для центров службы «02». При наборе этого номера, скажем в Санкт-Петербурге, на другом конце провода вам должна ответить одна из 30 барышень, обслуживающих информационную систему. Однако может ведь оказаться и так, что все они заняты, и вам придется ждать, когда кто-то из них завершит свой разговор.

А если вы не можете ждать, потому что именно сейчас происходит что-то экстраординарное и вашей жизни угрожает смертельная опасность? А в это время, например, одна из барышень вынуждена терпеливо объяснять какому-то пожилому жителю многоквартирного дома, что делать, если в квартире у соседей после 23.00 залаяла собака…

Если бы в этой ситуации работала система голосового самообслуживания, установленный фильтр позволял бы классифицировать проблемы, с которыми обращаются люди, и незамедлительно реагировать на совершенные преступления или на угрозу их совершения. И у нас такие системы разработаны.

— Михаил Васильевич, а специально для Вооруженных Сил вы что-нибудь создаете?

— Мы делаем аппаратуру для ВМФ – многоканальную систему записи для подводных лодок и надводных кораблей. Кстати, в свое время наша компания провела экспертизу звукозаписи с подводной лодки «Курск». После взрыва лодки пленки с записью целый год пролежали на морском дне. Все государственные организации отказались от проведения экспертизы, и их передали нам.

— Запись на них была не цифровой?

— Да, к сожалению, там все записывалось на пленку достаточно допотопным аналоговым магнитофоном. Пленка была скручена, лежала в морской воде… Наши специалисты все прочистили, склеили места разрывов, оцифровали, провели шумоочистку. Мы сделали свою работу и передали результаты – дословное содержание записи – в прокуратуру. Была там важная информация или нет, сказать не могу.

Но после этого случая, увидев устаревшую технику звукозаписи в подводном флоте, мы предложили морякам разработать и сделать нормальную цифровую звукозаписывающую систему. Они согласились, мы провели полномасштабную разработку, и сейчас серийную продукцию поставляем в ВМФ.

— Воды эта система не боится?

— Не боится. Если взять самолетные «черные ящики», то в них тоже сейчас запрещено осуществлять запись на пленку или на проволоку. Звукозапись – только цифровая, устройство записи – бескинематическое. И мы это тоже делаем совместно с партнерами.

Как известно, в ВМФ (и не только) используется морзянка, служат радисты, которые передают сообщения с ее помощью. Мы предложили морякам сделать систему автоматического распознавания морзянки.

— И как бы выглядела для потребителя система распознавания азбуки Морзе?

— Это был бы приемник с соответствующим блоком. На выходе появлялся бы уже живой текст (на бумаге или мониторе – не суть важно). Тратить время на расшифровку морзянки было бы не нужно. Кроме того, мы можем сделать и датчик ввода кода азбуки Морзе, тогда текст можно будет сразу набирать на клавиатуре. Но моряки, повторяю, говорят, что это им не надо и что у них есть специальные школы радистов, где те изучают азбуку Морзе.

— Может, они и правы, но мне почему-то вспомнилась то ли история, то ли байка о том, что царские генералы на заре автомобилестроения отказывались от закупок для армии автомобилей, заявляя, что владимирский тяжеловоз (порода лошадей. – Прим. авт.) – лучше машины…

— Еще могу привести интересный пример. У нас есть система документирования выступлений «Нестор». В Совете Федерации она уже стоит, сейчас будем устанавливать ее в Госдуме. Работает она так. Когда кто-то из выступающих говорит в микрофон, этот сигнал оцифровывается и помещается на сервер. У нас есть программно-аппаратный комплекс, который позволяет этот в цифровом виде речевой поток делить на отрезки и распределять их между машинистками.

И они в таком конвейерном режиме обрабатывают весь сигнал, всю речь. Причем каждая машинистка свой кусочек обрабатывает в комфортном режиме, то есть может остановить запись, еще раз вернуться к какому-то месту, изменить скорость воспроизведения без изменения тембра голоса.

Мы сделали и программу для обеспечения защиты свидетеля. Когда нужно, чтобы во время опроса в суде свидетеля подозреваемый по голосу его не узнал, звучание голоса свидетеля мы изменяем до неузнаваемости. Естественно, в таких случаях подозреваемый и не видит свидетеля, то есть находится за стенкой от него. В России в судах эта программа уже работает, сейчас мы запускаем ее в Белоруссии.

— Наверное, проблем с кадрами Центр речевых технологий не испытывает…

— Сейчас появляется очень много хороших ребят – молодых энтузиастов-специалистов, и они к нам притягиваются как к магниту – из Владимира, из Липецкой области, из Томска… Благодаря им средний возраст персонала компании снижается: если недавно он составлял 36 лет, то теперь уже 32 года. Фактически со всей России к нам собираются светлые головы. И обеспечивают российское лидерство в речевых технологиях».

Беседовал Александр ТИХОНОВ,

«Красная звезда» за 16.12.2008.

На снимке:

Генеральный директор Центра речевых технологий Михаил ХИТРОВ демонстрирует продукцию компании.

А.Тихонов