#python #speech_recognition
Ищу библиотеку для распознавания русской речи (ASR) в аудиозаписях длительностью
до 30 минут.
Работать нужно offline (т.е. без использования API - сервисов).
Что было найдено и какие возникли проблемы:
Kaldi, а точнее враппер на python под названием pykaldi. Честно, не смог разобраться
в ней. Насколько я понял, реализованы математические инструменты обработки звука, но
знаком с ними поверхностно, так что буду рад хорошей инструкции по использованию.
PocketSphinx. Тут проблема оказалась в качестве распознавания - оно было отвратительным.
Возникли вопросы: работает ли вообще эта библиотека с длинными аудио? (Видел бесчисленное
множество работы с ограниченным набором команд. Например, для умного дома). В туторе
есть описание "Адаптации" акустической модели языка, повлияет ли она на качество распознавания?
Собственно, есть ли ещё варианты? Я никогда не исключаю, что проморгал что-то очевидное.
P.S. Имеется обширный набор данных вида Аудио + Текст из этого аудио, который, возможно,
может быть применён для настройки точности (Например, для русской модели в pocketsphinx
Ответы
Ответ 1
Русскую модель для Kaldi скачать здесь. Для декодирования длинного файла его нужно разделить сначала на pywebrtcvad, затем скормить в kaldi через os.system. Pykaldi не нужно, слишком навороченный интерфейс, можно попробовать py-kaldi-simple.
Комментариев нет:
Отправить комментарий