Аннотация
Современные системы распознавания голоса успешно справляются со своей задачей. Получают все большее распространение алгоритмы голосового ввода и персональные помощники, например, Google now, Siri и т.д. Программы, такие как Shazam, помогают искать музыку по записи фрагмента с микрофона смартфона. Дальнейшим развитием распознавания звука может стать разделение звукового потока человеческой речи на составляющие. Такая задача в англоязычной литературе называется "cocktail party problem" - "проблемой коктейльной вечеринки". Решение этой проблемы позволит выполнять следующие задачи:
выделение нужного речевого сигнала из сигнала с одновременно говорящими собеседниками;
фильтрация шумов;
как следствие, возможность полного разделения сигнала на отдельные речевые треки;
как итог получить систему описания звукового фона, которую можно использовать в реализации сложных искусственных интеллектуальных системах.
создание эффективных систем сжатия звука, так как отедльные дорожки будут иметь специфические статистические характеристики.