Биометрия голоса. Голосовая биометрия как наиболее естественный и выгодный способ идентификации личности. Способы применения идентификации по голосу в банках

Всем привет.
Недавно я написал вот такую про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.

Опять же, т.к. моя работа связана с контактными центрами (КЦ), то говорить я буду о них. Это еще связано с тем, что сейчас именно они активно интересуются голосовой биометрией, что не удивительно, т.к. телефонный канал – это идеальное ее применение.
- вы не видите абонента на другом конце провода;
- вы не можете использовать другие модальности для подтверждения личности: по лицу, по сетчатке глаза, по отпечатку пальца.
- не нужны дополнительные сканирующие устройства, типа тех, куда надо приложить свой палец или кому показать свой глаз.
- это самый дешевый способ биометрии, хоть и слегка уступает по надежности другим способам. Но так как другие модальности технически не применимы по телефону в массовом использовании, то выбора по факту нет.
Вы, конечно, можете возразить про вариант подтверждения личности абонента «основанном на знаниях» - это пароли, секретные слова, TPIN коды (банки), паспортные данные и т.д. – но все это не надежно с точки зрения безопасности и требует запоминания информации у абонента или всегда держать информацию под рукой, что не очень удобно для абонента и не эффективно (затратно) для КЦ.

Для начала определимся с понятиями, что входит в понятие голосовой биометрии:
- Это идентификация , т.е. установление личности человека по голосу. Это когда вам звонит старый приятель по телефону с неизвестного номера и говорит: «Угадай кто это?» и вы пытаетесь в голове среди всех известных (знакомых) голосов найти наилучшее совпадение. Когда сканирование памяти закончилось и вы нашли более менее подходящее совпадение, то вы можете уже сказать: «Ага, это мой одноклассник Серега с которым я не говорил 10 лет». Но гарантии в том, что это именно он, у вас нет, и тут приходит время верификации.
- Верификация – это подтверждение личности по голосу, т.е. однозначное удостоверение личности. Для этого мы можем попросить доказать, что Серега именно тот, за кого себя выдает. Мы можем спросить у него: «Скажи, где мы были в 6 утра на выпускном» - эта информация позволит нам подтвердить личность Сереги, т.к. только он может являться носителем этой информации (аналогично паролю о котором я писал выше).

Если хотите более умное определение, то:
Идентификация - Проверяет совпадение одного образца голоса со многими из базы голосов. В качестве результата идентификации система показывает список личностей с похожими голосами в процентном отношении. 100% совпадение означает, что образец голоса полностью совпадает с голосом из базы данных и личность установлена достоверно.
Верификация - Производит сличение двух образцов голоса: голос человека, чью личность необходимо подтвердить, с голосом, который храниться в базе данных системы и чья личность уже достоверно установлена. В качестве результата верификации система показывает степень совпадения одного голоса с другим в процентном отношении.
Есть еще такое понятие как аутентификация . Однозначно сказать, чем она отличается от верификации сказать трудно. У некоторых наших сотрудников есть мнение, что это некий процесс подтверждения биологической (!) личности, когда трудно отделить процесс идентификации от верификации, т.е. это обобщенный процесс.

Какая бывает верификация?

- Текстонезависимая
Когда подтверждение личности происходит по спонтанной речи абонента, т.е. нам не важно, что говорит человек. Это самый долгий метод подтверждения – чистой речи абонента должно накопиться минимум 6-8 сек. Обычно этот способ применяется непосредственно во время общения абонента с оператором КЦ, когда последнему нужно однозначно удостовериться, что абонент именно тот, за кого себя выдает. Самое интересное, что данный способ верификации можно применять скрытно от самого абонента. На рабочем месте оператора КЦ виден вот такой рабочий инструмент.

Рис 1. Часть интерфейса рабочего места оператора КЦ для проведения верификации клиента.

- Текстозависимая по статической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую на момент регистрации придумал абонент. Длительность парольной фразы должна быть не менее 3 сек. Обычно мы предлагаем говорить свое ФИО и название компании. Парольная фраза всегда одинаковая.
- Текстозависимая по динамической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую предлагает сама система в момент звонка для верификации, т.е. каждый раз парольная фраза разная! Обычно мы предлагаем динамическую парольную фразу из последовательности цифр. Абонент повторяет за системой числа до тех пор, пока она не примет однозначного решения «свой/чужой». Это может быть и одно число типа «32» или целый набор «32 58 64 25». Интересно то, то произнесение разных цифр дает разный объем информации для сличения: самая «полезная» цифра «восемь» – она больше всего содержит полезной речевой информации, самая бесполезная «два».

Шаг 1.
Что бы мы могли провести верификацию по голосу, нам нужно в своей базе уже иметь образец голоса (слепок голоса), хозяин которого достоверно известен. Поэтому первый шаг – это накопление базы слепками голосов, для этого мы просим абонентов (клиентов) пройти процесс регистрации в системе.
Регистрация в системе абонента означает, что он добровольно оставляет свой слепок голоса, который потом мы будем использовать для верификации. Обычно мы просим оставить подряд 3 слепка голоса, что бы была вариативность – три раза произнести свой пароль. Затем, когда верификация будет успешно пройдена, мы заменим наиболее старый слепок голоса новым, таким образом, происходит постоянное обновление слепков, если абонент часто пользуется системой. Так мы решаем проблему старения голоса.
Если мы применяем верификацию по динамической парольной фразе, то мы просим произнести абонента цифры от 0 до 9 три раза. В результате у нас будет 30 образцов голоса.

Желательно, что бы клиент оставлял свой слепок голоса (регистрировался) по тому каналу связи, по которому потом будет верифицироваться, иначе вероятность ошибок возрастает. Бывают случаи, когда проходят регистрацию с гарнитуры в скайпе, а потом верифицируются по домашнему телефону – здесь фактор канала связи будет играть большую роль в надежности сервиса. При построении сервиса можно учитывать, что каналы связи могут быть разные - это отрабатывается и тестируется отдельно под конкретный случай и нивелировать влияния канала связи можно практически полностью. Но не подумав об этом сразу и с наскока внедрить - будут сложности.

Важно, что бы клиент самостоятельно и осознано прошел регистрацию (знал зачем это нужно и как это ему потом поможет), т.к. пройти потом верификацию может только лояльный абонент, которому нужен результат и который принимает «правила игры».
Если клиента вынуждать проходить верификацию к месту и не к месту, то он может подсознательно изменять голос, дурачиться (быть не дружелюбным к сервису) - это будет приводить к ошибкам и лояльность клиента будет падать, хотя он сам в этом косвенно будет виноват.

Как проходит регистрация абонента в системе? (статическая парольная фраза)

Рис 2. Схема регистрации человека в биометрической системе.

1.Абонент звонит в биометрическую систему, которая предлагает ему придумать и произнести парольную фразу. Произнести 3 раза.
2.Голос обрабатывается сервером биометрии и на выход мы получаем 3 модели голоса. По одной на каждый произнесенный пароль.
3.На сервере мы заводим карточку клиента (Юрий Гагарин) к которой прицепляем полученные 3 модели голоса.

Что такое модель голоса?
- это уникальные характеристики голоса человека отраженные в матрице цифр, т.е. это файл размером 18Кбайт (для статической п.ф.). Это как отпечаток пальца. Именно эти модели голоса мы потом и сравниваем. В общей сложности модель голоса фиксирует 74 (!) разных параметра голоса.

Как получают модели голоса?
Мы используем 4 независимых метода:
- анализ статистики основного тона;
- метод смеси гауссовых распределений и SVM;
- спектрально-формантный;
- метод полной изменчивости.
Описывать их подробно я здесь не возьмусь – это сложно даже для меня и в курс «для чайников» точно не входит. Этому всему мы учим на нашей кафедре РИС в ИТМО (Санкт-Петербург).

Шаг 2.
Это непосредственно сама верификация. То есть у нас есть абонент на том конце провода, который утверждает, что он Юрий Гагарин. А у нас в базе, соответственно, есть карточка клиента Юрия Гагарина, где хранятся слепки его голоса, поэтому, все, что нам нужно сделать – это сравнить голос человека, который утверждает, что он Юрий Гагарин с голосом настоящего Юрия Гагарина.

Как проходит верификация абонента в системе? (статическая парольная фраза)

Рис 3. Схема верификации человека в биометрической системе.

1.Сначала мы поступаем как при регистрации, т.е. у нас есть произнесенный клиентом пароль, который мы отправляем в сервер биометрии и строим модель голоса «якобы» Юрия Гагарина.
2.Затем мы берем 3 модели голоса настоящего Юрия Гагарина, делаем хитрым способом усредненную модель и тоже отправляем ее в сервер биометрии.
3.Просто сравниваем 2 разные модели. На выходе мы получаем процент соответствия одной модели к другой.
4.Дальше нам нужно что-то делать с этим числом (на рисунке 92%). Много это или мало, можем мы однозначно сказать, что это Юрий Гагарин или это обманщик?

Рис 4. Порог доверия «свой/чужой».

В системе у нас есть такой параметр как «порог доверия» - это некий процент соответствия. Допустим, мы его сами задали в 60%. Таким образом, если процент соответствия модели голоса «якобы» Юрия Гагарина не доходит до «порога доверия», то нам позвонил обманщик. Если больше «порога доверия», то нам позвонил настоящий Юрий Гагарин. «Порог доверия» мы можем задавать сами, обычно это от 50 до 70% в зависимости от задачи верификации.

Здесь мне нужно было бы вам рассказать про ошибки первого (FR) и второго рода (FA), а также обобщенной ошибки (EER), но я это делать не буду – это сильно усложнит и увеличит текст. Если интересно, то я попробую уговорить, кого ни будь из научного отдела это популярно описать и размещу здесь отдельно.

Скажу просто, что в зависимости от задачи верификации, нам бывает полезней с большей долей вероятности пропустить «своего», чем не пропустить «чужого». И наоборот, иногда бывает важнее не пропустить «чужого», чем пропустить «своего».
Уверен, что с первого раза эти 2 предложения из вас никто не понял, и вам пришлось еще раз вдумчиво их прочитать, что бы осознать смысл.

Интеграция сервера биометрии в контактный центр.

Рис 5. Блок-схема продукта VoiceKey.

Честно говоря, здесь все очень просто: на вход мы подаем голос в формате wave или PCM по http, на выходе получаем результат сравнения. Больше подробнее на этом останавливаться не хочу.

Процесс верификации занимает в среднем 0.8 сек. Есть возможность работать одновременно со многими потоками.

У нас на сайте все подробно описано, а главное есть проработанные сценарии использования для контактных центров. За последние годы я достаточно много общался с различными крупными КЦ в России, в первую очередь это финансовый сектор и понимание целей и задач у меня сформировалось.

Теперь затронем такой вопрос: насколько вообще технология голосовой биометрии пригодна к массовому использованию? Надежна ли она?

Если кратко, то ДА, она реально круто работает. У нас в компании есть телефонные демонстрационные стенды. Если интересно, то каждый из вас может позвонить и лично попробовать, как и что работает. Телефонный номер и инструкцию по тестированию даю по запросу с этой страницы. Просто для статистики интереса к этой теме и оценки нагрузки на сервер.

Для справки: разработки Российских ученых в области голосовой биометрии занимают если не первое место в мире, то точно делят его с другими. Это подтверждено независимыми исследованиями, например NIST (Национальный Институт Стандартов и Технологий, США), где наша компания попала в тройку лучших по всем пяти тестам среди коммерческих компаний. Или то, что наш продукт «VoiceKey» победил в номинации «Лучший продукт года для КЦ» в 2013 году в международном конкурсе «Хрустальная гарнитура ».
Также можно отметить, что нашей компании принадлежит реализация самого крупного в мире на сегодняшний день проекта по голосовой биометрии в телефонном канале.

Вкратце, вот такой ликбез. Готов отвечать на вопросы в комментах.

В наши дни речевые технологии из ИТ-экзотики быстро превращаются в реальность. Довольно большие успехи показывает голосовая биометрия, на основе которой реализованы различные приложения, обеспечивающие создание полезных услуг для банков, контакт-центров, поликлиник, автотранспорта, голосового управления работой средствами мобильной связи и навигации. Среди компаний, предлагающих широкий спектр популярных речевых и текстовых решений, а также приложений для работы с документами, значится и фирма Nuance Communications. Её региональный директор по продажам и развитию бизнеса Nuance Communications Мартин Весёлка ответил на вопросы обозревателя PC Week/RE Петра Чачина о современных возможностях речевых технологий и голосовой биометрии.

Мартин Весёлка: Голосовая биометрия — одна из технологий, которая развивается очень быстро и позволяет разным компаниям использовать ее решения для идентификации заказчиков. В биометрической системе для определения или подтверждения личности используют индивидуальные поведенческие, психологические и некоторые другие характеристики. Имеется множество биометрических измерений, включая сканирование радужной оболочки глаза, отпечатков пальцев, распознавание лица, голоса, подписи и т. д. Голосовая биометрия позволяет, исследуя голосовые характеристики человека, идентифицировать клиента. Она представляет собой относительно простой и экономичный способ решения ряда практических проблем.

PC Week: Чем вызван нынешний интерес ИТ-служб различных отраслей к голосовой биометрии и речевым технологиям?

М. В.: Это связано с тем, что голосовая биометрия и речевые технологии - уже далеко не игрушки, это - высокоразвитая технология, которая может быть использована для повышения качества услуги в такой степени, чтобы заказчик мог ощутить это улучшение. Предприятие должно предоставить заказчику автоматизированный сервис, и речевые технологии способны в этом помочь. Клиента никто не заставляет ждать, не переадресовывает и не предлагает пользоваться меню. Голосовые коммуникации являются удобными для заказчика.

Система понимает клиента и способна проверить его слова. Он может даже не помнить пароль или число. Голосовая биометрия, которая используется в процессе разговора, позволяет установить, кто звонит. Это сокращает время разговора. Так что клиенту не надо представляться и называть пароль. Его пароль - его голос! При этом он чувствует, что его звонок важен и компания сразу принимает решение.

PC Week: В каких отраслях наиболее востребованы приложения голосовой биометрии и речевых технологий?

М. В.: Наиболее широко они применяются в банковском секторе, в страховых компаниях, в телекоме. Авиакомпании проявляют значительный интерес. Перспективным является также рынок мобильных приложений для сотовых телефонов, где речевые технологии востребованы в полной мере. В автомобилестроении голосовые системы позволяют использовать навигационные приборы в пути, способны включить музыку, кондиционер, помогают, не отвлекаясь от управления машиной, записать и отправить SMS и т. д.

В медицине речевые технологии используются для записи информации о клиентах, создания электронных карт пациентов. Это позволяет оптимизировать работу врачей и создает явные преимущества для клиентов. Врач не использует клавиатуру компьютера, он просто диктует медицинские показатели и диагноз. Система распознавания речи переводит голос в текст и записывает его.

М. В.: Банковские контакт-центры успешно применяют голосовые технологии. Если клиенту нужна базовая информация, то она предоставляется ему свободно. Но если он хочет провести финансовую операцию или какую-то операцию со своим счетом, то его [статус] нужно проверить. Голосовая биометрия - это один из видов проверки клиента, с помощью которой возможно идентифицировать, живой ли это человек, или транслируется запись речи.

Система голосовой биометрии может выявить необходимость дополнительной проверки клиента. Можно также создать “черный список” отпечатков голосов клиентов, замеченных в мошенничестве или в попытках несанкционированного доступа к счетам других клиентов. Это позволяет обеспечить безопасность банковских операций.

PC Week: Является ли система верификации голоса клиента более надежной, чем PIN-коды и пароли?

М. В.: Сразу хотел бы отметить, что система голосовой биометрии более удобна для заказчика, чем использование PIN-кодов и паролей. Но можно также сказать, что голосовая биометрия более надежна, так как пароль может быть подслушан и украден в течение разговора. Да и PIN является большой проблемой всех контакт-центров, ведь операторы сами могут воспользоваться этими сведениями. Пароль и PIN нетрудно украсть, такая информация может уйти на чёрный рынок, но голос останется с вами! А вот комбинация голосовой биометрии и вопросов o персональной информации о вашей жизни в комбинации позволяют добиться высокой степени надежности.

М. В.: Каковы специфические проблемы контакт-центров? Они не успевают отвечать на запросы, не хватает операторов. В этом случае используются автоматические устройства интерактивного речевого ответа IVR. Но клиенты не всегда хотят работать с IVR, они предпочитают дождаться отклика оператора и теряют время обслуживания контакт-центра.

Заказчик звонит в центр обработки вызовов, мы спрашиваем его, как ему помочь. Он в свободной форме отвечает на вопрос. С помощью системы распознавания речи мы понимаем его просьбу и решаем, куда надо обратиться. Эту информацию мы или транслируем в систему самообслуживания, или направляем звонок оператору. В то же время мы можем идентифицировать клиента с помощью голосовой биометрии. Применяя данные меры, мы сберегаем очень много времени по сравнению с традиционными методами, ведь IVR не отвечает на вопросы.

В Восточной Европе и России голосовая биометрия практически не используется. А в Западной Европе и США данная технология уже широко применяется. Такая ситуация конечно изменится в ближайшие год-два. Операторские центры будут использовать речевые технологии, такие как голосовая биометрия, предоставляя лучшие по качеству услуги для всех клиентов контакт-центров.

Например, один из российских банков хочет внедрить голосовую биометрию для поддержки системы кредитных карт для всех своих клиентов. Это позволит идентифицировать пользователей. Технология инсталляции голосовой биометрии не сложная. Но заказчики должны знать о наличии нового сервиса, это важный элемент его продвижения.

PC Week: Насколько дорогостоящими являются системы голосовой биометрии? Велик ли рынок голосовых решений для контакт-центров?

М. В.: В начале каждого проекта мы рассчитываем экономическую эффективность и срок возврата инвестиций. В зависимости от пожеланий клиента, проект может делаться на базе числа портов IVR, или на базе количества отпечатков голоса, используемых в системе. Если голосовое решение хорошо отлажено, то время одного разговора может быть уменьшено на 20-40 с, а возврат инвестиций происходит за шесть-девять месяцев.

Рынок голосовой биометрии существует как в рамках контакт-центров, так и вне их. Причем каждый операторский центр может использовать голосовую биометрию. Сегодня голосовыми решениями занимаются почти все гиганты ИТ-индустрии, такие как Google и Microsoft. Но кроме call-центров есть и другие возможности использования голосовой биометрии, например для управления мобильными устройствами, предоставления безопасного доступа в определенные помещения или к определенному оборудованию, в сфере медицины и пр.

PC Week: И как используется распознавание речи в медицине?

М. В.: В медицине распознавание речи помогает высвобождению медперсонала. Разработаны приложения для диктовки и транскрипции, улучшающие качество записи, обработки и использования данных о пациенте. Это позволяет создавать медицинские архивы с голосовым управлением, которые значительно снижают эксплуатационные издержки и улучшают качество обслуживания пациентов. Использование таких систем повышает доходность лечебных учреждений за счет сокращения средней продолжительности выполнения задачи и одновременного повышения эффективности предоставления услуги.

М. В.: Системы голосовой техники быстро развиваются. Практически во всех сферах бизнеса они создают новые возможности для обслуживания клиентов, повышения точности, производительности и эффективности производства, сокращения временных и финансовых затрат. Они вторгаются в жизнь миллионов частных пользователей. Поэтому можно ожидать дальнейшего увеличения числа распознаваемых языков и расширения количества создаваемых на этой основе сервисов.

PC Week: Благодарю за беседу.

Фонограммы, записанные с использованием цифровых диктофонов «Гном Р» и «Гном 2М» удовлетворяют требованиям, предъявляемым к фонограммам, поступающим для проведения фоноскопических экспертиз, и пригодны для идентификации личности по голосу и речи...

Первый заместитель начальника

Диктофон «Гном 2М» неоднократно применялся для записи конференций и семинаров в сложной акустической обстановке, записанные фонограммы отличаются высоким качеством. Встроенная функция шумоочистки позволяет улучшить качество воспроизведения фонограмм...

Ведущий инженер ИПК БНТУ

Институт повышения квалификации и переподготовки кадров БНТУ

За срок эксплуатации «Гном Р» зарекомендовал себя с положительной стороны. Высокое качество записи при минимальных габаритах, большая продолжительность звукозаписи, оперативная передача накопленной информации из встроенной памяти диктофона в ПЭВМ...

Старший офицер 3-го отдела седьмого управления

Генерального штаба Вооруженных Сил РБ

Фонограммы, записанные с использованием системы «Незабудка II», удовлетворяют требованиям, предъявляемым к многоканальным цифровым комплексам регистрации речевых сообщений по телефонным каналам связи, и пригодны для идентификации личности по голосу и речи...

Начальник центра

Государственный экспертно-криминалистический центр

Неограниченное количество оповещаемых абонентов, большое количество одновременно обрабатываемых заданий сделает «Рупор» незаменимым помощником в работе сотрудников кредитного отдела филиала № 524 ОАО «АСБ Беларусбанка...

Заместитель директора – начальник центра розничного бизнеса

Филиал № 524 ОАО «АСБ Беларусбанк»

Система автоматического оповещения «Рупор» работала по аналоговым телефонным линиям и опробовалась с целью оповещения личного состава. Система обслуживала 100 абонентов, работала стабильно и не требовала постоянного технического обслуживания...

Исполняющий обязанности военного комиссара

Военный комиссариат г. Минска

Система записи «Незабудка II» обеспечивает прием голосовых сообщений жильцов, качественную запись их на компьютер, возможность прослушивания записанных сообщений и занесения информации в текстовую базу данных. Система оповещения «Рупор» производит автоматическое оповещение должников...

Начальник отдела АСУ

УП «ЖРЭО Советского района г. Минска»

Система «Рупор» обеспечивает оповещение большого количества абонентов в сжатые сроки в соответствии с установленными параметрами с предоставлением отчёта по проведённому оповещению, работает надёжно, полностью соответствует предъявленным к ней требованиям...

Директор департамента розничного бизнеса

В мобильную систему записи и документирования речи «Протокол» входит цифровой диктофон «Гном 2М» и компьютерный транскрайбер «Цезарь». Диктофон «Гном 2М» позволяет получать качественную запись совещаний и заседаний, а транскрайбер «Цезарь» значительно увеличивает скорость работы по переводу звуковой информации в текстовый документ...

Ведущий специалист

Институт государства и права Академии наук РБ

Голосовая биометрия как наиболее естественный и выгодный способ идентификации личности

Надежное распознавание и подтверждение личности стали необходимым и привычным атрибутом современной жизни. Поэтому сегодня мы все чаще слышим о применении биометрии в той или иной сфере деятельности, все громче заявляют о себе разнообразные биометрические технологии. Биометрия незаменима там, где необходимо обеспечить безопасность доступа к физическим объектам и информационным ресурсам. Биометрические технологии находят успешное применение в правоохранительной деятельности, гражданской регистрации, в области безопасности банковских обращений, инвестирования, в вопросах охраны здоровья и многих других сферах деятельности.

Что же подразумевается под «биометрией»? Общий термин «биометрия» используется в двух различных значениях: как характеристика и как процесс. Так, биометрия как «характеристика» – это уникальные физиологические или поведенческие характеристики человека, которые используются при автоматическом распознавании личности. Биометрия как «процесс» подразумевает совокупность автоматических методов распознавания личности по физиологическим или поведенческим характеристикам.

Наиболее часто используемыми биометрическими характеристиками являются отпечатки пальцев, форма лица, радужная оболочка глаза, голос, подпись, геометрия руки. Нельзя сказать, что та или иная характеристика является лучше остальных. При выборе подходящего биометрического метода идентификации следует учитывать такие факторы, как область его применения, требуемый уровень безопасности, целевую установку (верификация или идентификация), ожидаемое число пользователей, практичность и другие.

Рассмотрим кратко основные методы идентификации:

  • По отпечатку пальца. Данный метод основан на уникальности узоров на пальцах у каждого человека. Пользователям больше не нужно набирать пароль, доступ обеспечивает одно касание до сканирующего устройства. Этот метод является наиболее распространенным по отношению к остальным методам.
  • По радужной оболочке глаза. При сканировании глаза выделяется рисунок радужной оболочки, который впоследствии используется для идентификации человека.
  • По форме лица. Данный метод основан на распознавании трехмерного образа лица человека, т.е. система идентифицирует человека по расположению на его лице глаз, бровей, носа и расстоянию между ними.
  • По подписи. Идентификация осуществляется по динамическим характеристикам почерка человека.
  • По голосу. Система распознает человека по частотным и статическим характеристикам его голоса. В настоящее время технология распознавания по голосу активно развивается, ей прочат большое будущее и широкое применение.
  • По геометрии руки. Человек идентифицируется по трехмерному образу кисти руки.

Рассмотрим подробнее метод идентификации личности по голосу. В последнее время увеличение числа «краж личности», террористических атак вызвали огромный скачок в развитии голосовой биометрии. Использование усовершенствованных систем идентификации по голосу является наиболее удобным для пользователя способом аутентификации, который обеспечивает распознавание на более высоком уровне и позволяет снизить расходы за счет автоматизации процесса.

Сегодня для того, чтобы обеспечить надежную защиту доступа к информации, необходимо использовать такие методы идентификации личности, которые позволили бы определить «Действительно ли он/ она является тем, за кого себя выдает?», опираясь на три фактора:

  • то, что человек ЗНАЕТ (пароль, PIN-код);
  • то, что человек ИМЕЕТ (удостоверение личности, ключ);
  • каким человек ЯВЛЯЕТСЯ (физиологические характеристики).

Голос является единственной биометрической характеристикой человека, которая отвечает трем вышеперечисленным условиям. Из всех существующих вариантов, идентификация личности по голосу является наименее навязчивой, наиболее доступной для человека, а также может осуществляться отдаленно, например, по телефону. Более того, голосовая биометрия – это единственная технология, которая, помимо микрофона, не требует дополнительного специального оборудования. Из всех биометрических характеристик только голос можно передать посредством любой сети связи: по стационарному или мобильному телефону, по проводной и беспроводной виртуальной частной сети, по IP-сетям, радиосети.

Благодаря высокому уровню точности распознавания совместно с простотой использования, метод идентификации по голосу становится выбором номер один при разработке как одномодальных, так и многомодальных приложений.

Голосовую биометрию, включающую в себя технологии идентификации и верификации личности, не следует путать с технологиями распознавания речи. Применяя технологии распознавания речи можно распознать, что человек говорит, но не кем он является. Следовательно, использование технологий распознавания речи ограничены в сфере обеспечения безопасности. Напротив, технологии идентификации и верификации личности по голосу находят свое применение тогда, когда необходимо подтвердить, является ли человек тем, кем он представляется.

  1. входных данных;
  2. математических алгоритмов;
  3. вычислительной мощности.

Под входными данными подразумевается биометрический образец, или голосовой отпечаток, хранящийся в базе данных. Качество биометрического образца во многом зависит от типа устройства ввода (например, профессиональный микрофон или мобильный телефон) и окружающей среды (шумная улица или тихое помещение). Существуют технологии, которые автоматически определяют качество голосового отпечатка, затем очищают его от шума, чтобы получить более качественный образец.

Алгоритмы в биометрических системах используются для того, чтобы сравнить полученный голосовой отпечаток с образцом в базе данных. Чем совершеннее алгоритм, тем точнее результат сравнения.

Под вычислительной мощностью понимают скорость и качество обработки биометрических признаков пользователя.

На рисунке 1 представлен пример применения системы распознавания личности по голосу в одном из call-центров.


Рисунок 1 – Применение системы распознавания личности

Учитывая простоту использования, возможность идентифицировать пользователя отдаленно и высокую точность распознавания, голосовая биометрия чаще всего находит свое применение в компаниях, осуществляющих свою деятельность через сети связи и заинтересованных в защите идентификационной информации своих клиентов. Так, голосовая биометрия эффективно используется в сферах, где необходимо удостоверение личности человека, например:

  • голосовой контроль доступа;
  • контроль доступа в call-центрах;
  • регистрация в Интернет;
  • изменение пароля;
  • домашний арест;
  • безопасная конференц-связь;
  • криминалистические экспертизы и опознание по голосу;
  • скрытая авторизация в call-центрах;
  • борьба с терроризмом;
  • борьба с наркоманией;
  • банковское обслуживание;
  • телекоммуникация;
  • функция «черный список».

На сегодняшний день разработаны системы, которые совмещают несколько биометрических технологий, например, технологию верификации личности по голосу и отпечаткам пальцев. Сочетание двух биометрических технологий позволяет преимуществам одной технологии компенсировать недостатки другой, и наоборот, а также позволяет оператору контролировать уровень безопасности.

В прошлом голосовая биометрия уступала место таким биометрическим методам, как идентификация и верификация по отпечаткам пальцев, форме лица и радужной оболочке глаза. Однако новые алгоритмы и высокая производительность компьютера по обработке данных позволили существенно повысить точность распознавания личности по голосу, что делает голосовую биометрию сильным конкурентом для менее удобных традиционных методов идентификации и верификации.
К тому же, необходимость в более высоком уровне защиты информации в коммерческой деятельности делают голосовую биометрию отличным недорогим решением для многих компаний.

Из доступных сегодня видов биометрических технологий голосовая биометрия является наиболее выгодной и удобной для пользователя, поэтому в скором времени решения с использованием голосовой биометрии станут применяться повсеместно. PIN-коды могут быть забыты, магнитные карты – утеряны или украдены, а специальные сканирующие устройства требуют вложения немалых денег. Напротив, голосовая биометрия делает идентификацию возможной в любом месте в любое время. Все что Вам нужно – это воспользоваться мобильным или стационарным телефоном, или микрофоном.

Компания «Речевые Технологии» является одним из лидеров в создании систем голосовой биометрии. Собственная технология верификации личности по голосу позволяет компаниям организовать регламентированный доступ пользователей к материальным и информационным ресурсам, телефонным и Web-сервисам, а также значительно повысить качество обслуживания клиентов. Эффективно технология применяется в системах информационной безопасности предприятий, системах электронного банкинга, электронной коммерции, электронных подписных изданий и др.

Решение позволит Вам установить доступ к мобильному устройству с помощью голосового пароля. Преимуществами использования от ООО «Речевые технологии» являются обеспечение надежной защиты мобильного устройства в случае его утери или кражи, применении надежного алгоритма верификации пользователя, устойчивости к внешнему шуму и многие другие.

Технологии компании позволяют организовать бимодальные биометрические системы, что значительно позволяет расширить границы применимости.

Все материалы, размещенные на даннном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"


Каждый из нас способен узнать своих родных и знакомых по походке, силуэту, прическе, иногда почерку, но в первую очередь, конечно, по голосу и лицу. Это никого не удивляет и кажется абсолютно естественным. В то же время большинство почему-то с недоверием относится к различным системам, которые обещают идентифицировать человека по характерным лишь для него признакам. Ведь мы же путаем иногда голоса по телефону, принимая незнакомца за кого-то из близких, так почему «машина» не может ошибиться? И как ей в таком случае доверять?

Прародительницей биометрических технологий считается биология: представители науки всегда пытались систематизировать и объяснить различные признаки и свойства особей, проявляющиеся во время экспериментов. В конце XIX в. ученые Фрэнсис Гальтон и Карл Пирсон, выявляя закономерности в наследственности людей, применили методы вариационной статистики при анализе их наследственных признаков, чем положили начало науке биометрии.

До 2001 г. возможности биометрии применялись преимущественно спецслужбами для выявления преступников, защиты государственной тайны и сверхважной коммерческой информации.

Но после чреды террористических актов биометрические технологии, что называется, шагнули в массы. Уже никого не удивляет функция доступа к данным по отпечатку пальца, предлагаемая во многих моделях ноутбуков. Однако до сих пор специалисты по биометрии приводят примеры из фантастических фильмов, чтобы объяснить, каким образом можно использовать подобные технологии.

Между тем возможности биометрии многогранны: решения, созданные на ее основе, применяются в системах контроля и управления доступом, для организации доступа к личным кабинетам в веб, а также к персональной информации и мобильным терминалам.

В качестве идентификатора могут выступать лицо, ладонь, отпечаток пальца, радужная оболочка глаза или голос - все то, что ни один человек не может оставить дома или передать кому-то.

Речь - основное средство коммуникации для людей. Каждый человек использует голос для общения, причем как непосредственного, так и с помощью различных каналов связи (GSM, PSTN, VoIP). Запись же речи несет в себе массу информации не только о содержании сообщения, но и о личности говорящего. Именно поэтому речь, а точнее, фонетические ее образцы как биометрические характеристики эффективно используются в качестве улики в криминалистике с середины прошлого века.

Метод идентификации по голосу основывается на том, что у каждого индивидуума свой неповторимый голосовой рисунок, который зависит от его пола, физических особенностей строения голосовых связок и полости носа, формы рта, а также от таких характеристик, как частота и амплитуда. Точность биометрической идентификации по голосу соответствует 97 %.

При их внедрении нет необходимости в установке дополнительного оборудования как для передачи, так и для фиксации речи;

Характеризуются высокой скоростью поиска фонетического образца голоса в архиве образцов речи в режиме реального времени.

Разработанные компанией «Центр речевых технологий» (ЦРТ) программные решения для создания и ведения фоноучетов, а также осуществления автоматической идентификации по голосу основываются на таких методах исследования голоса и речи, для которых не имеют значение язык, акцент, используемый диалект, а также само содержание речи.

Процедура поиска (идентификации) интересующего «диктора» заключается в автоматическом попарном сравнении «голосовых моделей», в которых закодированы индивидуальные биометрические характеристики голоса и речи «дикторов». По результатам сравнения выводится ранжированный список фонограмм, содержащих с указанной вероятностью речь интересующих «дикторов».

Система автоматически выделяет биометрические признаки голоса и речи «дикторов» тремя независимыми методами и в соответствии с этим строит «модели голоса»:

При применении спектрально-формантного метода на основе различных спектральных характеристик речевого сигнала, анализа поведения первых трех и/или четырех формант, биометрической информации о строении речевого тракта (см. рис);

В случае использования метода основного тона на основе различных спектральных характеристик речевого сигнала, отражающих вибрации голоса, а также множества статистических и динамических параметров интонационного контура;

При применении метода с использованием смесей гауссовых распределений производится выделение дикторозависимых биометрических признаков из речевого сигнала, их последующее моделирование и классификация по методу опорных векторов. Сравнение голосовых моделей может производиться двумя способами:

С единственным шаблоном, соответствующим проверяемой личности - такая процедура называется верификацией или сравнением «один к одному». Результатом в этом случае обычно является число, отражающее вероятность того, что сравниваемые шаблоны принадлежат одному лицу;

Со всеми зарегистрированными шаблонами (без предварительного выбора шаблона и ввода номера или кода). В качестве результата возвращается список нескольких наиболее похожих шаблонов (с наибольшими вероятностями, полученными при сравнении).

Система биометрического распознавания речи встраивается в требуемые бизнес-процессы и за считанные секунды идентифицирует и верифицирует голос человека, информируя оператора о положительном или отрицательном результате сравнения.

Идентификация по голосу является бесконтактным, этически корректным методом получения биометрической информации. Взаимодействие с системой идентификации по голосу не вызывают у человека раздражения при снятии «образца» и в ходе дальнейшей процедуры. Кроме того, голос является единственно доступной биометрической характеристикой для распознавания личности по телефону.

Мультимодальная биометрия

В случае использования одного биометрического признака (одной биометрической модальности) для идентификации личности существует вероятность ошибки системы. Это связано с целым рядом причин:

Качеством образца. Не все люди имеют определенные биометрические признаки. По различным данным, до 5 % населения не обладают отчетливыми отпечатками пальцев. В частности, пожилые люди имеют деформированные и стер-тые рисунки пальцев, а дети - несформировавшиеся. Все это также увеличивает вероятность получения ложного отказа при регистрации биометрических образцов в системе.

Неправильным взаимодействием пользователя с биометрической системой в процессе регистрации. Выбор неправильной позы, выражение сильных эмоций на лице при фотографировании для образца повышают возможность возникновения ложного отказа при идентификации.

Схожестью отдельных биометрических признаков (например, голосов или лиц) у различных людей, что приводит к увеличению межклассовой схожести. Это, в свою очередь, способствует появлению ошибок при идентификации личности.

Погодными условиями.

Мультимодальные биометрические системы могут устранить многие ограничения унимодальных систем, поскольку при их использовании одни биометрические признаки компенсируют недостатки, присущие другим.

Мультимодальная система идентификации личности, разработанная ЦРТ, объединила голосовую и лицевую биометрию. В 2011 г. дочерняя компания «ЦРТ-Инновации» стала участником кластера информационных технологий инновационного центра «Сколково», где ведет работу над созданием мультимодальных биометрических систем, предназначенных для использования в сфере государственной и корпоративной безопасности, а также в области телекоммуникаций.

Совмещение голосовой и лицевой биометрии является естественным ходом развития биометрических технологий из-за широкого распространения соответствующих «бимодальных» устройств: сотовых телефонов, коммуникаторов, цифровых фото- и видеокамер, ноутбуков. Наличие таких бимодальных устройств значительно упрощает процесс получения биометрических образцов, процесс регистрации личности в биометрической системе, понижает стоимость самой системы и т. д.

Метод идентификации по лицу представляется также одним из наиболее социально допустимых биометрических методов. Эта технология достаточно легко интегрируется в другие существующие системы, так как фотографии являются основным идентификационным форматом для водительских прав, паспортов и иных удостоверений личности. Фото- или видеосъемка лица не представляется раздражающим процессом, потому что люди привыкли к постоянному присутствию видеокамер в офисах, торговых центрах и других общественных местах. Техника сканирования лица в биометрической индустрии занимает второе место после отпечатков пальцев

Коммерческое применение биометрических технологий в системах доступа

Современный человек вынужден помнить пароли от почтовых ящиков, интернет-магазинов, рабочего места (в среднем на каждого обывателя приходится четыре часто используемых символьных пароля, которые время от времени приходится менять, записывать где-то, снижая при этом надежность доступа к своим аккаунтам). Вход в офис, спортивный клуб, въезд на парковку ограничиваются картой/брелоком доступа. Это те артефакты и та информация, которые крайне нежелательно забыть или потерять.

Система автоматической биометрической аутентификации по голосу и/или лицу заменяет и дополняет традиционные системы доступа по карточкам, секретным словам и паролям в контакт-центрах, электронных банкингах, интеренет-магазинах и других отраслях бизнеса, где необходимо общение с клиентом как личное, так и с использованием каналов связи. Кроме того, система применима в офисах и на рабочих местах в целях снижения риска утечки и ограничения доступа к коммерческой информации.

Разработанная в ЦРТ система доступа на основе технологии автоматической идентификации личностей по голосу (см. табл.) и дополненная идентификацией по лицу может служить как самостоятельное решение, так и совместно с другими биометрическими модальностями и традиционными системами доступа.

Уникальность голосовой биометрии состоит в том, что это единственная биометрическая модальность, которая позволяет идентифицировать человека по телефону, что важно, например, при удаленном доступе к различным услугам, криминалистической идентификации, где единственным доказательством является запись телефонного разговора подозреваемого. Кроме того, голосовая идентификация не требует применения специализированного дорогостоящего оборудования, нужен только микрофон. При этом по уровню надежности голосовая биометрия не уступает, а по некоторым параметрам превосходит другие системы биометрической идентификации.

Биометрические системы доступа нашли применение в самых различных сферах деятельности:

Правоохранительной и судебной (экспертиза);

Таможенной;

Правительственной и военной;

Финансовой;

Туристической.

Основными задачами, которые решают биометрические системы доступа, являются:

Контроль доступа в системах информационной безопасности (государственные и правительственные учреждения, телебанкинг и автоматические call-центры);

Контроль физического доступа (в основном государственные и правительственные учреждения);

Усиление безопасности применения банковских карт (АТМ-киоски).

Использование технологий биометрической идентификации в системе доступа является важным аспектом для обеспечения безопасности на всех уровнях: в каналах связи, сети Интернет, при физическом доступе на объекты и в помещения. Биометрические решения оперируют неотъемлемыми характеристиками человека, существенно снижая угрозы осуществления мошеннических операций в финансовых компаниях, несанкционированного доступа в стратегически важные помещения, а также организации беспорядков на объектах массового скопления людей.

С развитием средств общения с клиентом открываются новые возможности для бизнеса, но в равной степени возрастает и риск мошенничества со стороны потребителей услуг и персонала. В случае создания базы голосов злоумышленников при автоматической аутентификации речи легко выявляются и пресекаются преступные намерения со стороны недобросовестных клиентов. Допустим, контактцентр банка или оператора связи в качестве идентификационной информации использует фамилию, имя, отчество, дату рождения и паспортные данные клиента - сведения, которые можно купить и найти в Интернете. Воспользовавшись полученными данными, любой может навредить клиенту компании - блокировать номер телефона, узнать баланс, подключить дополнительные услуги. Для пресечения подобных действий зачастую применяют секретное слово, которое также можно передать другому или узнать незаконно. В то время как использование технологий голосовой биометрии позволит не только определить, что голос не принадлежит пользователю услуг, но и сформировать базу голосов злоумышленников в целях пресечения повторения аналогичных действий с их стороны.

Решения с использованием голосовой биометрии особенно эффективны при внедрении в организациях с развитой сетью филиалов. Общая база биометрических данных сотрудников и пользователей услуг обеспечивает надежную защиту от действий мошенников, кражи пропусков и паролей и выполнения операций от чужого имени вне зависимости от того, обслуживаются ли клиенты в филиале организации, по телефону или через Интернет.

Применение биометрических технологий во внутренних и внешних процессах коммерческих компаний не только позволяет увеличить безопасность, сократив случаи мошенничества, повысить удобство общения с различными электронными автоматическими системами персонала и клиентов, но и сократить ТСО на обслуживание систем управления доступом.

Всем привет.
Недавно я написал вот такую про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.

Опять же, т.к. моя работа связана с контактными центрами (КЦ), то говорить я буду о них. Это еще связано с тем, что сейчас именно они активно интересуются голосовой биометрией, что не удивительно, т.к. телефонный канал – это идеальное ее применение.
- вы не видите абонента на другом конце провода;
- вы не можете использовать другие модальности для подтверждения личности: по лицу, по сетчатке глаза, по отпечатку пальца.
- не нужны дополнительные сканирующие устройства, типа тех, куда надо приложить свой палец или кому показать свой глаз.
- это самый дешевый способ биометрии, хоть и слегка уступает по надежности другим способам. Но так как другие модальности технически не применимы по телефону в массовом использовании, то выбора по факту нет.
Вы, конечно, можете возразить про вариант подтверждения личности абонента «основанном на знаниях» - это пароли, секретные слова, TPIN коды (банки), паспортные данные и т.д. – но все это не надежно с точки зрения безопасности и требует запоминания информации у абонента или всегда держать информацию под рукой, что не очень удобно для абонента и не эффективно (затратно) для КЦ.

Для начала определимся с понятиями, что входит в понятие голосовой биометрии:
- Это идентификация , т.е. установление личности человека по голосу. Это когда вам звонит старый приятель по телефону с неизвестного номера и говорит: «Угадай кто это?» и вы пытаетесь в голове среди всех известных (знакомых) голосов найти наилучшее совпадение. Когда сканирование памяти закончилось и вы нашли более менее подходящее совпадение, то вы можете уже сказать: «Ага, это мой одноклассник Серега с которым я не говорил 10 лет». Но гарантии в том, что это именно он, у вас нет, и тут приходит время верификации.
- Верификация – это подтверждение личности по голосу, т.е. однозначное удостоверение личности. Для этого мы можем попросить доказать, что Серега именно тот, за кого себя выдает. Мы можем спросить у него: «Скажи, где мы были в 6 утра на выпускном» - эта информация позволит нам подтвердить личность Сереги, т.к. только он может являться носителем этой информации (аналогично паролю о котором я писал выше).

Если хотите более умное определение, то:
Идентификация - Проверяет совпадение одного образца голоса со многими из базы голосов. В качестве результата идентификации система показывает список личностей с похожими голосами в процентном отношении. 100% совпадение означает, что образец голоса полностью совпадает с голосом из базы данных и личность установлена достоверно.
Верификация - Производит сличение двух образцов голоса: голос человека, чью личность необходимо подтвердить, с голосом, который храниться в базе данных системы и чья личность уже достоверно установлена. В качестве результата верификации система показывает степень совпадения одного голоса с другим в процентном отношении.
Есть еще такое понятие как аутентификация . Однозначно сказать, чем она отличается от верификации сказать трудно. У некоторых наших сотрудников есть мнение, что это некий процесс подтверждения биологической (!) личности, когда трудно отделить процесс идентификации от верификации, т.е. это обобщенный процесс.

Какая бывает верификация?

- Текстонезависимая
Когда подтверждение личности происходит по спонтанной речи абонента, т.е. нам не важно, что говорит человек. Это самый долгий метод подтверждения – чистой речи абонента должно накопиться минимум 6-8 сек. Обычно этот способ применяется непосредственно во время общения абонента с оператором КЦ, когда последнему нужно однозначно удостовериться, что абонент именно тот, за кого себя выдает. Самое интересное, что данный способ верификации можно применять скрытно от самого абонента. На рабочем месте оператора КЦ виден вот такой рабочий инструмент.

Рис 1. Часть интерфейса рабочего места оператора КЦ для проведения верификации клиента.

- Текстозависимая по статической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую на момент регистрации придумал абонент. Длительность парольной фразы должна быть не менее 3 сек. Обычно мы предлагаем говорить свое ФИО и название компании. Парольная фраза всегда одинаковая.
- Текстозависимая по динамической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую предлагает сама система в момент звонка для верификации, т.е. каждый раз парольная фраза разная! Обычно мы предлагаем динамическую парольную фразу из последовательности цифр. Абонент повторяет за системой числа до тех пор, пока она не примет однозначного решения «свой/чужой». Это может быть и одно число типа «32» или целый набор «32 58 64 25». Интересно то, то произнесение разных цифр дает разный объем информации для сличения: самая «полезная» цифра «восемь» – она больше всего содержит полезной речевой информации, самая бесполезная «два».

Шаг 1.
Что бы мы могли провести верификацию по голосу, нам нужно в своей базе уже иметь образец голоса (слепок голоса), хозяин которого достоверно известен. Поэтому первый шаг – это накопление базы слепками голосов, для этого мы просим абонентов (клиентов) пройти процесс регистрации в системе.
Регистрация в системе абонента означает, что он добровольно оставляет свой слепок голоса, который потом мы будем использовать для верификации. Обычно мы просим оставить подряд 3 слепка голоса, что бы была вариативность – три раза произнести свой пароль. Затем, когда верификация будет успешно пройдена, мы заменим наиболее старый слепок голоса новым, таким образом, происходит постоянное обновление слепков, если абонент часто пользуется системой. Так мы решаем проблему старения голоса.
Если мы применяем верификацию по динамической парольной фразе, то мы просим произнести абонента цифры от 0 до 9 три раза. В результате у нас будет 30 образцов голоса.

Желательно, что бы клиент оставлял свой слепок голоса (регистрировался) по тому каналу связи, по которому потом будет верифицироваться, иначе вероятность ошибок возрастает. Бывают случаи, когда проходят регистрацию с гарнитуры в скайпе, а потом верифицируются по домашнему телефону – здесь фактор канала связи будет играть большую роль в надежности сервиса. При построении сервиса можно учитывать, что каналы связи могут быть разные - это отрабатывается и тестируется отдельно под конкретный случай и нивелировать влияния канала связи можно практически полностью. Но не подумав об этом сразу и с наскока внедрить - будут сложности.

Важно, что бы клиент самостоятельно и осознано прошел регистрацию (знал зачем это нужно и как это ему потом поможет), т.к. пройти потом верификацию может только лояльный абонент, которому нужен результат и который принимает «правила игры».
Если клиента вынуждать проходить верификацию к месту и не к месту, то он может подсознательно изменять голос, дурачиться (быть не дружелюбным к сервису) - это будет приводить к ошибкам и лояльность клиента будет падать, хотя он сам в этом косвенно будет виноват.

Как проходит регистрация абонента в системе? (статическая парольная фраза)

Рис 2. Схема регистрации человека в биометрической системе.

1.Абонент звонит в биометрическую систему, которая предлагает ему придумать и произнести парольную фразу. Произнести 3 раза.
2.Голос обрабатывается сервером биометрии и на выход мы получаем 3 модели голоса. По одной на каждый произнесенный пароль.
3.На сервере мы заводим карточку клиента (Юрий Гагарин) к которой прицепляем полученные 3 модели голоса.

Что такое модель голоса?
- это уникальные характеристики голоса человека отраженные в матрице цифр, т.е. это файл размером 18Кбайт (для статической п.ф.). Это как отпечаток пальца. Именно эти модели голоса мы потом и сравниваем. В общей сложности модель голоса фиксирует 74 (!) разных параметра голоса.

Как получают модели голоса?
Мы используем 4 независимых метода:
- анализ статистики основного тона;
- метод смеси гауссовых распределений и SVM;
- спектрально-формантный;
- метод полной изменчивости.
Описывать их подробно я здесь не возьмусь – это сложно даже для меня и в курс «для чайников» точно не входит. Этому всему мы учим на нашей кафедре РИС в ИТМО (Санкт-Петербург).

Шаг 2.
Это непосредственно сама верификация. То есть у нас есть абонент на том конце провода, который утверждает, что он Юрий Гагарин. А у нас в базе, соответственно, есть карточка клиента Юрия Гагарина, где хранятся слепки его голоса, поэтому, все, что нам нужно сделать – это сравнить голос человека, который утверждает, что он Юрий Гагарин с голосом настоящего Юрия Гагарина.

Как проходит верификация абонента в системе? (статическая парольная фраза)

Рис 3. Схема верификации человека в биометрической системе.

1.Сначала мы поступаем как при регистрации, т.е. у нас есть произнесенный клиентом пароль, который мы отправляем в сервер биометрии и строим модель голоса «якобы» Юрия Гагарина.
2.Затем мы берем 3 модели голоса настоящего Юрия Гагарина, делаем хитрым способом усредненную модель и тоже отправляем ее в сервер биометрии.
3.Просто сравниваем 2 разные модели. На выходе мы получаем процент соответствия одной модели к другой.
4.Дальше нам нужно что-то делать с этим числом (на рисунке 92%). Много это или мало, можем мы однозначно сказать, что это Юрий Гагарин или это обманщик?

Рис 4. Порог доверия «свой/чужой».

В системе у нас есть такой параметр как «порог доверия» - это некий процент соответствия. Допустим, мы его сами задали в 60%. Таким образом, если процент соответствия модели голоса «якобы» Юрия Гагарина не доходит до «порога доверия», то нам позвонил обманщик. Если больше «порога доверия», то нам позвонил настоящий Юрий Гагарин. «Порог доверия» мы можем задавать сами, обычно это от 50 до 70% в зависимости от задачи верификации.

Здесь мне нужно было бы вам рассказать про ошибки первого (FR) и второго рода (FA), а также обобщенной ошибки (EER), но я это делать не буду – это сильно усложнит и увеличит текст. Если интересно, то я попробую уговорить, кого ни будь из научного отдела это популярно описать и размещу здесь отдельно.

Скажу просто, что в зависимости от задачи верификации, нам бывает полезней с большей долей вероятности пропустить «своего», чем не пропустить «чужого». И наоборот, иногда бывает важнее не пропустить «чужого», чем пропустить «своего».
Уверен, что с первого раза эти 2 предложения из вас никто не понял, и вам пришлось еще раз вдумчиво их прочитать, что бы осознать смысл.

Интеграция сервера биометрии в контактный центр.

Рис 5. Блок-схема продукта VoiceKey.

Честно говоря, здесь все очень просто: на вход мы подаем голос в формате wave или PCM по http, на выходе получаем результат сравнения. Больше подробнее на этом останавливаться не хочу.

Процесс верификации занимает в среднем 0.8 сек. Есть возможность работать одновременно со многими потоками.

У нас на сайте все подробно описано, а главное есть проработанные сценарии использования для контактных центров. За последние годы я достаточно много общался с различными крупными КЦ в России, в первую очередь это финансовый сектор и понимание целей и задач у меня сформировалось.

Теперь затронем такой вопрос: насколько вообще технология голосовой биометрии пригодна к массовому использованию? Надежна ли она?

Если кратко, то ДА, она реально круто работает. У нас в компании есть телефонные демонстрационные стенды. Если интересно, то каждый из вас может позвонить и лично попробовать, как и что работает. Телефонный номер и инструкцию по тестированию даю по запросу с этой страницы. Просто для статистики интереса к этой теме и оценки нагрузки на сервер.

Для справки: разработки Российских ученых в области голосовой биометрии занимают если не первое место в мире, то точно делят его с другими. Это подтверждено независимыми исследованиями, например NIST (Национальный Институт Стандартов и Технологий, США), где наша компания попала в тройку лучших по всем пяти тестам среди коммерческих компаний. Или то, что наш продукт «VoiceKey» победил в номинации «Лучший продукт года для КЦ» в 2013 году в международном конкурсе «Хрустальная гарнитура ».
Также можно отметить, что нашей компании принадлежит реализация самого крупного в мире на сегодняшний день проекта по голосовой биометрии в телефонном канале.

Вкратце, вот такой ликбез. Готов отвечать на вопросы в комментах.

Понравилась статья? Поделиться с друзьями: