Страницы

Поиск по вопросам

среда, 22 января 2020 г.

Python-библиотеки для распознавания речи offline

#python #speech_recognition


Ищу библиотеку для распознавания русской речи (ASR) в аудиозаписях длительностью
до 30 минут.
Работать нужно offline (т.е. без использования API - сервисов).

Что было найдено и какие возникли проблемы:


Kaldi, а точнее враппер на python под названием pykaldi. Честно, не смог разобраться
в ней. Насколько я понял, реализованы математические инструменты обработки звука, но
знаком с ними поверхностно, так что буду рад хорошей инструкции по использованию.
PocketSphinx. Тут проблема оказалась в качестве распознавания - оно было отвратительным.
Возникли вопросы: работает ли вообще эта библиотека с длинными аудио? (Видел бесчисленное
множество работы с ограниченным набором команд. Например, для умного дома). В туторе
есть описание "Адаптации" акустической модели языка, повлияет ли она на качество распознавания?


Собственно, есть ли ещё варианты? Я никогда не исключаю, что проморгал что-то очевидное.

P.S. Имеется обширный набор данных вида Аудио + Текст из этого аудио, который, возможно,
может быть применён для настройки точности (Например, для русской модели в pocketsphinx
    


Ответы

Ответ 1



Русскую модель для Kaldi скачать здесь. Для декодирования длинного файла его нужно разделить сначала на pywebrtcvad, затем скормить в kaldi через os.system. Pykaldi не нужно, слишком навороченный интерфейс, можно попробовать py-kaldi-simple.

Комментариев нет:

Отправить комментарий