Психология - это просто. Речевые технологии. Голосовая биометрия для чайников на примере работы в контактном центре

Четкая, быстрая и напористая речь говорит о том, что перед вами активный, энергичный человек, который может сначала сделать и только потом подумать. Именно к таким людям чаще применяют фразу «Наломал дров».

Человека, который во главе своей жизненной деятельности ставит анализ, можно узнать по неторопливой, взвешенной речи. Не спешите радоваться торопливому словесному потоку, в котором потеряны окончания слов и логическая связь. Это совершенно не означает, что ваш собеседник предпочитает больше действовать, чем говорить. Вероятно, он просто несобранный.

О напряжении, металлических нотках и громком голосе

Резкие голосовые колебания указывают на то, что собеседник находится в процессе самовыражения. Такие интонации чаще присущи подросткам. Сталкиваясь с неизвестными жизненными ситуациями, они легко меняют привычные стереотипы мышления и поведения. Даже самая маленькая неудача в жизни способна пробудить острую реакцию на происходящее.

Напряжение в голосе – контроль каждого шага. Возможно, это высоко ценится начальством и коллегами, но весьма неприятно близким. Таким людям чуждо понятие «душевного тепла», они полностью погружены в работу, отличаются замкнутостью и самодисциплиной.

Хозяину голоса с металлическими нотками присуща всеподавляющая энергия и воля, ему под силу сломить любое сопротивление. На желание доминировать и контролировать указывает чрезмерно громкий голос. Если ко всему прочему присоединяется частое перебивание собеседника, значит, перед вами человек, центральным качеством которого является эгоизм. Ошибочно мнение о том, что громкая речь указывает на уверенность, чаще это всего лишь желание привлечь внимание.

Звонкий и высокий голос

Звонкий голос порождает мысли об энергичности и юности собеседника, которая нередко граничит с незрелостью и неопытностью. Стоит отметить, что при восприятии слишком звонкого голоса снижается уровень доверия к сказанному.

Абсолютной противоположностью будет уверенный и спокойный голос, указывающий на то, что его обладатель знает, как подать себя миру. Главный конек таких людей – самодисциплина и самоконтроль.

Я так понимаю, раз Вы зашли почитать эту статью, то Вас конкретно волнует определение своего голоса или определение голоса своего ученика. Тема эта, как Вы понимаете, очень длинная и Я не буду сейчас углубляться в различия голосов по их спинтовости или величине, о которой, Я уже писал в статье « ». Думаю, Вам интересно, именно определение голоса по типу, т.е.: , и т.д. Кстати, что б ни писать здесь о характеристиках различных голосов Вы можете ознакомиться с ними подробно в разделе « », та информация, надеюсь, Вам тоже поможет. Думаю, вообще трудно переоценить.

Сразу скажу, что невозможно прочитать текст и встав из-за компьютерного стола или убрав из поля зрения телефон с которого Вы это читаете, узнать способ, как не имея вокальной школы просто взять и определить свой тип голоса. Я могу помочь только тем, кто хоть как-то образован, кто имеет догадки и т.д. А вообще, что б ни лукавить, Я просто объясню способы, которыми педагоги определяют голос ученика, а Вы уже сами решайте, и если после этой информации Вы останетесь, не уверены, то, дорога в музыкальную школу или к частному преподавателю пения Вам заказана.

И так. Теперь собственно комплекс признаков, по которым определяется тип голоса:

1. Тембр. Ну конечно, первое на что смотрят – это звучание, окрас, густоту грудных и головных регистров голоса, что там говорить, если Магомаев, например, был баритоном, то этот чисто баритональный тембр ни с чем не спутать, конечно, некоторые тенора могут изобразить низкие баритоновые ноты, но это будет зажато, мало звучно, не окрашено. И наоборот, баритон не сможет изобразить той лёгкости и полётности верхней форманты, которую продемонстрирует тенор. Та же история с сопрано и меццо, да в принципе и с любыми голосами. А вообще, опытные преподаватели определяют тембр голоса ученика, просто по внутренним ощущениям и интуиции, потому что за жизнь уже наслушались столько голосов, что обмануть их слух почти невозможно.
2. Переходные ноты. В каждом голосе есть переходные ноты, «мосты» между регистрами, головным и грудным. Есть так же теория о том, что в каждом голосе 3 регистра и споры на эту тему до сих пор тянутся столетиями, сейчас не об этом. Так или иначе, эти переходники есть и нащупав их, так же можно, хоть не со 100% уверенностью, но всё же определить тип голоса, вот например, у тенора переходные ноты ми-фа# первой октавы, у баритона ре-ми бемоль первой октавы, переходные ноты меццо: ре-ми бемоль второй октавы, у сопрано ми-фа# второй октавы и т.д. Вот и хорошая идея для следующей статьи нашлась о переходных тонах. Но следует помнить, что опытные певцы переходных тонов не чувствуют и попросту забывают о них.
3. Диапазон. Наверное, это самый растяжимый критерий в этом списке.На начальном этапе обучения пению, диапазон, преимущественно мал у всех и никому ни о чём не говорит, а что касается оперных певцов, то их диапазоны зачастую 2,5 – 3 октавы, а значит и это не критерий. Многие меццо поют в тесситуре Сопрано, и наоборот, контральто могут доставать верхние ноты меццо, тенора доставать ноты баритонов, басы могут петь в тесситуре баритонов и т.д. конечно эти способности есть не у всех, но всё же они есть. У хороших певцов всегда большой диапазон и от этого никуда не денешься.
Строение гортани и связок. Когда-то существовалислухи о том, что фониатрия якобы может, взглянув на связки спрогнозировать голос певца или сделать то же самое по размеру и форме кадыка. Якобы у теноров, кадык небольшой и еле заметный, а у басов большой и т.д. Но осмотрев хотя бы с пару десятков певцов, Вы сразу сообразите, что это далеко не так и тип голоса не зависит от строения гортани, а что касается связок, то этот критерий так же ничего значить не может. В конце концов, если строение связок играет роль, то нужно оценивать их размер, толщину, прочность, эластичность, подвижность и т.д.
Телосложение. Миф о том, что меццо-сопрано и тенора обязательно полные, а басы и колоратуры обязательно тощие так же не имеет места, как обоснованная и доказанная теория определения голоса, потому что по статистике в этой теории будет больше половины исключений, а значит, теория не имеет смысла.
Способность выдерживать тесситуру. Что касается этой способности, то здесь всё ясно, имеется ввиду способность певца долго петь в однообразно высокой или низкой тесситуре.

Например, если баритон, способен брать теноровые ноты, и даже тембром схож с драматическим тенором, это ещё не значит что он тенор, потому что, как не крути. Но у тенора, порой, тесситура всего произведения настолько высока, что способность едино-разово брать высокую ноту не спасёт, а вот тенор так устроен, что ему под силу выдерживать высокую тесситуру на протяжении всей оперы и т.д. Хотя конечно, Я уже писал о певце , который мог дать фору многим тенорам и доставал он До# 2 октавы, что кажется невероятным просто.

Стоит ли делать вывод из вышесказанного, что каждый человек сам делает свой голос с нуля? – «Нет! конечно». Потому что даже несмотря, на то, что по отдельности все эти факторы не значимы, в совокупности они рождают собой целую науку «определение голоса». Природа всё-таки вложила в каждого из нас особый перечень способностей и лучше всего раскрывать то, что уже есть и даже на это может не хватить жизни, не то, что бы на трансформацию себя.

Как понять по голосу человека? Голос – первое, с чем мы знакомимся в человеке в начале общения. Голос может рассказать о нем очень многое. Тембр голоса, его высота и сила играют важную роль при общении. Знанием этих простых правил очень умело пользуются политики, психологи, бизнесмены.

Свойства и характеристика голоса человека

Если человек начинает заикаться, краснеть, отводить в сторону глаза , у него начинают потеть ладони, то это явный признак того, что он лжет. Но иногда приходится сталкиваться с тем, что с некоторыми людьми происходит все наоборот: они вполне уверенно держаться, когда лгут, и начинают заикаться, когда говорят правду.

Также важно обратить внимание на тон собеседника, так как выражать он может разные мысли. К примеру, высокий и оживленный тон может свидетельствовать как о принятии ваших слов с энтузиазмом, так и о недоверии к сказанному вами.

Важно вслушиваться в слова собеседника и замечать все изменения его голоса. Если голос сменился с радостного на тусклый и тихий , то, вероятно, вы чем-то обидели человека.

С людьми, которым доверяют и симпатизируют, разговаривают обычно несколько тише, как и в случае, если говорят что-то, не предназначенное для посторонних.

Здравствуй, дорогой читатель!

Предлагаю твоему вниманию интересную и познавательную статью об отдельно взятом методе распознавания говорящего. Всего каких-то пару месяцев назад я наткнулся на о применении мел-кепстральных коэффициентов для распознавании речи. Она не нашла отклика, вероятно, из-за недостаточной структурированости, хотя материал в ней освещен очень интересный. Я возьму на себя ответственность донести этот материал в доступной форме и продолжить тему распознавания речи на Хабре.

Под катом я опишу весь процесс идентификации человека по голосу от записи и обработки звука до непосредственно определения личности говорящего.

Запись звука

Наша история начинается с записи аналогового сигнала с внешнего источника с помощью микрофона. В результате такой операции мы получим набор значений, которые соответствуют изменению амплитуды звука со временем. Такой принцип кодирования называется импульсно-кодовой модуляцией aka PCM (Pulse-code modulation). Как можно догадаться, «сырые» данные, полученные из аудио-потока, пока еще не годятся для наших целей. Первым делом нужно преобразовать непослушные биты в набор осмысленных значений — амплитуд сигнала. В качестве входных данных я буду использовать несжатый 16-битный знаковый (PCM-signed) wav-файл с частотой дискретизации 16 кГц.

Double readAmplitudeValues(bool isBigEndian) { int MSB, LSB; // старший и младший байты byte buffer = ReadDataFromExternalSource(); // читаем данные откуда-нибудь double data = new double; for (int i = 0; i < buffer.length; i += 2) { if(isBigEndian) // задает порядок байтов во входном сигнале { // первым байтом будет MSB MSB = buffer; // вторым байтом будет LSB LSB = buffer; } else { // наоборот LSB = buffer; MSB = buffer; } // склеиваем два байта, чтобы получить 16-битное вещественное число // все значения делятся на максимально возможное - 2^15 data[i] = ((MSB << 8) || LSB) / 32768; } return data; }
Освежить знания про порядок байтов можно на википедии .

Обработка звука

Полученные значения амплитуд могут не совпадать даже для двух одинаковых записей из-за внешнего шума, разных громкостей входного сигнала и других факторов. Для приведения звуков к «общему знаменателю» используется нормализация . Идея пиковой нормализации проста: разделить все значения амплитуд на максимальную (в рамках данного звукового файла). Таким образом мы уравняли образцы речи, записанные с разной громкостью, уложив все в шкалу от -1 до 1. Важно, что после такой трансформации любой звук полностью заполняет заданный промежуток.

Нормализация, на мой взгляд, — самый простой и эффективный алгоритм предварительной обработки звука. Существуют также масса других: «отрезающие» частоты выше или ниже заданной, сглаживающие и др.

Разделяй и властвуй

Даже при работе со звуком с минимально достаточной частотой дискретизации (16 кГц) размер уникальных характеристик для секундного образца звука просто огромен — 16000 значений амплитуд. Производить сколь-нибудь сложные операции над такими объемами данных не представляется возможным. Кроме того, не совсем понятно, как сравнивать объекты с разным количеством уникальных черт.

Для начала снизим вычислительную сложность задачи, разбив ее на меньшие по сложности подзадачи. Этим ходом убиваем сразу двух зайцев, ведь установив фиксированный размер подзадачи и усреднив результаты вычислений по всем задачам, получим наперед заданное количество признаков для классификации.

На рисунке изображена «порезка» звукового сигнала на кадры длины N с половинным перекрытием. Необходимость в перекрытии вызвана искажением звука в случае, если бы кадры были расположены рядом. Хотя на практике этим приемом часто принебрегают для экономии вычислительных ресурсов. Следуя рекоммендациям , выберем длину кадра равной 128 мс, как компромисс между точностью (длинные кадры) и скоростью (короткие кадры). Остаток речи, который не занимает полный кадр, можно заполнить нулями до желаемого размера или просто отбросить.

Для устранения нежелаетльных эффектов при дальнейшей обработке кадров, умножим каждый элемент кадра на особую весовую функцию («окно»). Результатом станет выделение центральной части кадра и плавное затухание амплитуд на его краях. Это необходимо для достижения лучших результатов при прогонке преобразования Фурье , поскольку оно ориентировано на бесконечно повторяющийся сигнал. Соответственно, наш кадр должен стыковаться сам с собой и как можно более плавно. Окон существует великое множество . Мы же будем использовать окно Хэмминга.

n - порядковый номер элемента в кадре, для которого вычисляется новое значение амплитуды
N - как и ранее, длина кадра (количество значений сигнала, измеренных за период)

Дискретное преобразование Фурье

Следующим шагом будет получение кратковременной спектрограммы каждого кадра в отдельности. Для этих целей используем дискретное преобразование Фурье .

N - как и ранее, длина кадра (количество значений сигнала, измеренных за период)
x n - амплитуда n-го сигнала
X k - N комплексных амплитуд синусоидальных сигналов, слагающих исходный сигнал

Кроме этого, возведем каждое значение X k в квадрат для дальнейшего логарифмирования.

Переход к мел-шкале

На сегодняшний день наиболее успешными являются системи распознавания голоса, использующие знания об устройстве слухового аппарата. Несколько слов об этом есть и на Хабре . Если говорить вкратце, то ухо интерпретирует звуки не линейно, а в логарифмическом масштабе. До сих пор все операции мы проделывали над «герцами», теперь перейдем к «мелам». Наглядно представить зависимость поможет рисунок.

Как видно, мел-шкала ведет себя линейно до 1000 Гц, а после проявляет логарифмическую природу. Переход к новой шкале описывается несложной зависимостью.

m - частота в мелах
f - частота в герцах

Получение вектора признаков

Сейчас мы как никогда близко к нашей цели. Вектор признаков будет состоять из тех самых мел-кепстральных коэффициентов. Вычисляем их по формуле

c n - мел-кепстральный коэффициент под номером n
S k - амплитуда k-го значения в кадре в мелах
K - наперед заданное количество мел-кепстральных коэффициэнтов
n ∈

Как правило, число K выбирают равным 20 и начинают отсчет с 1 из-за того, что коэффициент c 0 несет мало информации о говорящем, так как является, по сути, усреднением амплитуд входного сигнала.

Так кто же все-таки говорил?

Последней стадией является классификация говорящего. Классификация производится вычислением меры схожести пробных данных и уже известных. Мера схожести выражается расстоянием от вектора признаков пробного сигнала до вектора признаков уже классифицированного. Нас будет интересовать наиболее простое решение — расстояние городских кварталов .

Такое решение больше подходит для векторов дискретной природы, в отличие от расстояния Евклида.

Внимательный читатель наверняка помнит, что автор в начале статьи упоминал про усреднение признаков речевых кадров. Итак, восполняя этот пробел, завершаю статью описанием алгоритма нахождения усредненного вектора признаков для нескольких кадров и нескольких образцов речи.

Кластеризация

Нахождение вектора признаков для одного образца не составит труда: такой вектор представляется как среднее арифметическое векторов, характеризующих отдельные кадры речи. Для повышения точности распознавания просто необходимо усреднять результаты не только между кадрами, но и учитывать показатели нескольких речевых образцов. Имея несколько записей голоса, разумно не усреднять показатели к одному вектору, а провести кластеризацию, например с помощью метода k-средних .

Итоги

Таким образом, я рассказал о простой но эффективной системе идентификации человека по голосу. Резюмируя, процесс распознавания построен следующим образом:

Собираем несколько тренировочных образцов речи, чем больше — тем лучше.
Находим для каждого из них характеристический вектор признаков.
Для образцов с известным автором проводим кластеризацию с одним центром (усреднение) или несколькими. Приемлемые результаты начинаются уже с использованием 4-х центров для каждого диктора.
В режиме опознавания находим расстояние от пробного вектора до изученных во время тренировки центров кластеров. К какому кластеру пробная речь окажется ближе — к такому диктору и относим образец.
Можно экспериментально установить даже некоторый доверительный интервал — максимальное расстояние, на котором может находиться пробный образец от центра кластера. В случае превышения этого значения — классифицировать образец как неизвестный.

Я всегда рад полезным комментариям по поводу улучшения материала. Спасибо за внимание.

Каждый голос уникален и неповторим по своему звучанию. Благодаря этим особенностям, мы можем легко узнавать голоса своих знакомых даже по телефону. Певческие голоса отличаются не только по тембру, но и по высоте раскрытия голоса, диапазону, индивидуальной окраске. И в этой статье вы узнаете, как правильно определить тип голоса ребёнка или взрослого человека. А также, как определить свой удобный диапазон.

Певческие голоса всегда подходят под одну из вокальных характеристик, которые придумали в итальянской оперной школе. Их сравнивали по звучанию с музыкальными инструментами струнного квартета. Как правило, звучание скрипки сравнивали с женским голосом сопрано, альта – с меццо. Самые низкие голоса – контральто – сравнивали со звучанием валторны (как и тембр тенора), а низкие басовые тембры – с контрабасом.

Так появилась классификация голосов, близкая к хоровой. В отличие от , в котором пели только мужчины, оперная школа Италии расширила возможности пения и позволила создать классификацию женских и мужских голосов. Ведь в церковном хоре женские партии исполняли дисканты (сопрано) или тенора-альтино. Эта характеристика голосов сохранилась и сегодня не только в оперном, но и в эстрадном пении, правда, в эстраде подача звука другая. Некоторые критерии:

4 критерия определения голоса

В профессиональном пении есть свои критерии определения. Во время прослушивания преподаватель обращает внимание на:

Тембр голоса . Так называют неповторимую окраску голоса, которая может быть светлой и тёмной, насыщенной и мягкой, лирической нежной. Тембр складывается из индивидуальной окраски голоса, которая есть у каждого человека. У одного голос звучит мягко, тонко, даже немного по-детски, у другого уже в ранние годы имеет насыщенную грудную окраску. Различают тембр головной, грудной и смешанный, мягкий и резкий. Он является основной характеристикой окраски. Есть голоса, резкий тембр которых звучит очень отталкивающе и неприятно до такой степени, что им не рекомендуется заниматься вокалом. Тембр, как и диапазон, является отличительной особенностью певца, а голос выдающихся певцов и певиц отличается яркой индивидуальностью и узнаваемостью. В вокале цениться мягкий, красивый и приятный для слуха тембр.
Диапазон. Каждый тип голоса имеет не только своё характерное звучание, но и диапазон. Его можно определить во время распевания или, попросив человека спеть песню в удобной для него тональности. Обычно певческие голоса имеют определённый диапазон, который позволяет безошибочно определить его тип. Различают рабочий и нерабочий диапазон голоса. Профессиональные певцы имеют широкий рабочий диапазон, который позволяет им не только замещать коллег с другими голосами, но и красиво исполнять оперные арии для других партий.
Тональность . Любой голос имеет свою тональность, в которой исполнителю удобно петь. Она будет разной у каждого типа.
Тесситура. Так называется определённый участок диапазона, в котором исполнителю удобно петь. Для каждого голоса он свой. Чем шире этот участок, тем лучше. Часто говорят о том, что есть удобная и неудобная тесситура для голоса или исполнителя. Это значит, что, песня или партия в хоре может быть удобной для пения одним исполнителем и неудобной для другого, хотя диапазоны у них могут быть одинаковыми. Так можно определить и особенности голоса.

Как правильно определить тип голоса у детей

Детские голоса ещё не имеют сформированного тембра, но уже в это время можно определить их тип во взрослом возрасте. Обычно их делят на высокие и низкие, как у мальчиков, так и у девочек. В хоре их называют сопрано и альт или дискант и бас. В смешанных хорах есть 1 и 2 сопрано, а также 1 и 2-й альт. После переходного возраста они приобретут более яркую окраску и уже после 16-18 лет можно будет определить взрослый тип голоса.

Чаще всего из дискантов получаются тенора и баритоны, из альтов – драматические баритоны и басы . Низкие голоса девочек могут превратиться в меццо-сопрано или контральто, а сопрано стать немного выше и ниже и приобрести свой неповторимый тембр. Но бывает, что низкие голоса становятся высокими и наоборот.

Дискант хорошо узнаваем по звонкому высокому звучанию. Некоторые из них могут петь даже партии для девочек. У них хорошо развит высокий регистр и диапазон.

Альты и мальчики, и девочки имеют грудное звучание. У них красивее звучат низкие ноты, а не верхние. У сопрано – самых высоких голосов у девочек – лучше звучат высокие ноты, начиная от соль первой октавы, чем низкие. Если определить их тесситуру, то можно понять, как он будет развиваться. То есть, как определить диапазон этого голоса во взрослом возрасте.

Как правильно определить свой тип голоса

В настоящее время есть 3 типа женских и мужских голосов. Каждый тип имеет свои отличия.

Сопрано – наиболее звонкий, лёгкий высокий женский голос. Он имеет яркий женственный тембр и может звучать высоко, звонко и пронзительно. Ему удобнее петь в конце первой октаве и во второй, а некоторые колоратурные сопрано легко поют высокие ноты в третьей. У мужчин похожее звучание имеет тенор.

Меццо-сопрано – сочный и насыщенный средний женский голос. Чаще всего, он имеет красивый глубокий тембр и диапазон, который красиво раскрывается в первой октаве и в начале второй. Низкие ноты этого голоса звучат наполнено, сочно, с красивым грудным звучанием. Он аналогичен звучанию баритона.

Контральто – глубокий, чувственный, бархатный и самый низкий голос у женщин. Он имеет звучание, напоминающее по тембру виолончель, и может брать низкие ноты малой октавы. А самым низким мужским голосом является бас-профундо, который в природе встречается очень редко. Чаще всего самые низкие партии в хоре поют басы.

Прослушав выдающихся певцов вашего пола, вы без труда поймёте, как определить по окраске свой тип.

Как определить безошибочно, тональность голоса? Вы сможете это сделать дома, если у вас есть музыкальный инструмент. Выберите песню, которая вам нравиться и спойте её в удобной тональности. Она должна иметь широкий диапазон, чтобы охватить хотя бы полторы октавы. Затем попробуйте подобрать её мелодию. В каком диапазоне вам удобно её петь? Затем поднимите её выше и ниже.

Где лучше раскрывается ваш голос? Это и есть наиболее удобный участок вашего рабочего диапазона. Сопрано будет удобно петь в конце первой и начале второй октавы и выше, меццо – в первой, а контральто ярче всего звучит в последнем тетрахорде малой октавы и в первой сексте первой. Это хороший способ, верно определить тональность своего голоса.

Вот ещё один способ , как определить, какой у тебя природный голос. Нужно взять распевку в диапазоне октавы (например, до – ми – ля – до (вверх) до –ми –ля (вниз), и спеть её в разных тональностях, которые будут отличаться на секунду. Если голос раскрывается, когда вы поёте верх, значит, его тип – сопрано. А, если тускнеет и теряет выразительность – меццо или контральто.

Теперь то же самое проделайте сверху вниз. В какой тональности вам стало петь удобнее всего? Не стал ли голос терять свой тембр и становиться тусклым? При движении вниз сопрано теряют свой тембр на низких нотах, им неудобно их петь, в отличие от меццо и контральто. Так вы сможете определить не только тембр голоса, но и наиболее удобный участок для пения, то есть рабочий диапазон.

Как определить, какой у тебя голос в студии? Выбрать несколько фонограмм любимой песни в разной тональности и пропеть их. Там, где лучше всего раскрывается голос, и стоит петь в дальнейшем. Ну а заодно вы будете знать, как определить свой тембр, прослушав запись несколько раз. И, хотя вы можете с непривычки не узнать свой голос, порой запись может наиболее точно определить его звучание. Так что, если вы хотите определить свой голос и понять, как с ним надо работать, отправляйтесь в студию. Удачи!