Изучая распознавание речи, наткнулся на данную статью. В ней происходит распознавание фонем, а затем их объединение в слова.
Зачем так делать, ведь можно разбить входящий поток на слова, затем сгенерировать MFCC для них и сравнивать уже MFCC со словарем через нейронную сеть? Или так нельзя?
Ответ
Потому что в аудиопотоке нет такого понятия как слово/слова. Есть поток аудиоряда и выделить в нем слова без использования тех же нейронных сетей очень сложно - разные люди обладают разным произношением, мелодикой, скоростью произношения и т.д. Иногда целая фраза/предложение звучит слитно (без пауз), в других случаях люди делают паузы при произношении единственного слова.
В общем если бы было легко разбить аудиопоток на слова, то задача распознавания речи сильно упростилась бы...
Комментариев нет:
Отправить комментарий