Глава 1. История проблемы

Способность человека вычленять нужную звуковую информацию из общей зашумленной слуховой сцены в англоязычной литературе называется «феноменом коктейльной вечеринки». Этот термин ввёл Колин Чёрч в 1953 году в статье «Some Experiments on the Recognition of Speech, with One and with Two Ears». Изначально этот термин вводился не в рамках распознавания речи машиной, а в рамках исследований возможностей человека. В то время операторы в аэропортах были сильно перегружены сообщениями от пилотов, которые поступали одновременно в наушники оператору. В своей работе Чёрч исследовал какие признаки влияют на успешное разделение шума и голоса, такие как пол говорящего, высота звука и так далее. Естественно, эти исследования помогали в подборе персонала, чтобы брать наиболее подходящих к такой работе. Как следствие появились психологические исследования о возможности понимания двух одновременно говорящих.

Дальнейшее развитие работа Чёрча нашла в исследованиях Дональда Бродбента в его модели фильтрации. Модель базируется на дихотомическом тесте, когда в разные уши подают разный звуковой сигнал. В результате экспериментов установили, что человек способен восстановить только ту информацию, на которой он концентрировался при прослушивании. Отсюда были сделаны выводы, что мозг каким-то образом фильтрует данные. Предполагается, что при распознавании звуков используется несколько уровней памяти. Первый уровень - сенсорная память, некоторый буфер в котором хранится вся информация снятая с сенсоров, а потом выбирается нужная на основе концентрации. Полезный сигнал проходит в рабочую память, а шум отбрасывается.

Далее, основываясь на идеях фильтрации, развивалась теория выборочного внимания и строились модели внимания. В этой модели предположили, что шум не просто отбрасывается на этапе фильтрации, а значительно ослабляется, но проходит дальше в рабочую память. Анне Трейсман, предположил существование некоторого порога, в виде, например, ключевого слова, которое забирает внимание на себя.

Другой вектор исследований направлен на изучение особенностей звука и сенсоров. Благодаря бинауральному слуху человек может определять положение источника звука в пространстве. А разница между сигналами входящими в разные уши позволяет отделить один сигнал от другого.

Как видно, очень долго этой темой занимались ученые психологи, они пытались понять как у человека получается концентрировать внимание на голосе. Теперь можно попробовать применить эти исследования для создания искусственной системы распознавания голоса. В следующей главе будут освещены наиболее успешные подходы.

results matching ""

    No results matching ""