#python #speech_recognition
Ищу библиотеку для распознавания русской речи (ASR) в аудиозаписях длительностью до 30 минут. Работать нужно offline (т.е. без использования API - сервисов). Что было найдено и какие возникли проблемы: Kaldi, а точнее враппер на python под названием pykaldi. Честно, не смог разобраться в ней. Насколько я понял, реализованы математические инструменты обработки звука, но знаком с ними поверхностно, так что буду рад хорошей инструкции по использованию. PocketSphinx. Тут проблема оказалась в качестве распознавания - оно было отвратительным. Возникли вопросы: работает ли вообще эта библиотека с длинными аудио? (Видел бесчисленное множество работы с ограниченным набором команд. Например, для умного дома). В туторе есть описание "Адаптации" акустической модели языка, повлияет ли она на качество распознавания? Собственно, есть ли ещё варианты? Я никогда не исключаю, что проморгал что-то очевидное. P.S. Имеется обширный набор данных вида Аудио + Текст из этого аудио, который, возможно, может быть применён для настройки точности (Например, для русской модели в pocketsphinx
Ответы
Ответ 1
Русскую модель для Kaldi скачать здесь. Для декодирования длинного файла его нужно разделить сначала на pywebrtcvad, затем скормить в kaldi через os.system. Pykaldi не нужно, слишком навороченный интерфейс, можно попробовать py-kaldi-simple.
Комментариев нет:
Отправить комментарий