Страницы

Поиск по вопросам

суббота, 6 июля 2019 г.

Зачем распознавать отдельные фонемы?

Изучая распознавание речи, наткнулся на данную статью. В ней происходит распознавание фонем, а затем их объединение в слова.
Зачем так делать, ведь можно разбить входящий поток на слова, затем сгенерировать MFCC для них и сравнивать уже MFCC со словарем через нейронную сеть? Или так нельзя?


Ответ

Потому что в аудиопотоке нет такого понятия как слово/слова. Есть поток аудиоряда и выделить в нем слова без использования тех же нейронных сетей очень сложно - разные люди обладают разным произношением, мелодикой, скоростью произношения и т.д. Иногда целая фраза/предложение звучит слитно (без пауз), в других случаях люди делают паузы при произношении единственного слова.
В общем если бы было легко разбить аудиопоток на слова, то задача распознавания речи сильно упростилась бы...

Комментариев нет:

Отправить комментарий