Аннотация

Современные системы распознавания голоса успешно справляются со своей задачей. Получают все большее распространение алгоритмы голосового ввода и персональные помощники, например, Google now, Siri и т.д. Программы, такие как Shazam, помогают искать музыку по записи фрагмента с микрофона смартфона. Дальнейшим развитием распознавания звука может стать разделение звукового потока человеческой речи на составляющие. Такая задача в англоязычной литературе называется "cocktail party problem" - "проблемой коктейльной вечеринки". Решение этой проблемы позволит выполнять следующие задачи:

  • выделение нужного речевого сигнала из сигнала с одновременно говорящими собеседниками;

  • фильтрация шумов;

  • как следствие, возможность полного разделения сигнала на отдельные речевые треки;

  • как итог получить систему описания звукового фона, которую можно использовать в реализации сложных искусственных интеллектуальных системах.

  • создание эффективных систем сжатия звука, так как отедльные дорожки будут иметь специфические статистические характеристики.

results matching ""

    No results matching ""