Ученые ТГУ переводят книги в аудиоформат при помощи ИИ
10 Августа 2021

Команда ученых и студентов кафедры теоретических основ информатики ИПМКН Томского государственного университета совместно с компанией «Директ-Медиа» применила принципы машинного обучения к переводу текста литературных произведений в аудиокниги. Эта разработка позволила снизить коэффициент ошибок при прочтении омонимов и расшифровке сокращений. Сейчас работающий алгоритм LUWRAIN Books разместили в свободном доступе, чтобы им мог воспользоваться любой желающий.

LUWRAIN Books, используя алгоритмы глубокого обучения, преобразует русскоязычный текст, каким он встречается в СМИ и художественной литературе, в устную речь. Эта возможность крайне необходима при издании аудиокниг, созданных синтезаторами речи, и при озвучивании сайтов. Сложность задачи в том, что только при понимании текста возможна корректная обработка сокращений. Например, когда в тексте есть фрагмент «я получил письмо от о. Петра», человек понимает, что сокращение «о.» в данном случае означает «отца», но для компьютера произвести подобную подстановку невозможно без задействования нейронных сетей. 

Михаил Пожидаев

– При обработке текста мы использовали две нейросети: одна – мелкая, для семантического анализа, нужного для снятия неопределённости сокращений, вторая – глубокая, двунаправленная, для синтаксического анализа текста. Именно вторая определяет, что в предложении «мы положили литературу XIX в. в цифровой ларец» слово «литература» стоит в родительном падеже, поэтому при расшифровке будет произнесено «девятнадцатого», – объясняет доцент кафедры теоретических основ информатики ИПМКН ТГУ Михаил Пожидаев.

Отдельной проблемой при расшифровке текста выступает наличие двух и более сокращений в одном предложении. «Мы забрались на вершину г. Эверест, а потом вернулись в г. Томск» – пример того, как в тексте «г.» используется в двух вариантах: город и гора. В этом случае нейросеть на основе смыслового анализа окружающих слов корректно определяет, как это озвучивать.

Работа сервиса

– Мы давно над этим работали, но задача крайне непростая, и без современных интеллектуальных алгоритмов такую обработку провести невозможно. Форма на сайте https://books.luwrain.org/ может пока работать нестабильно, так как это экспериментальный режим. Но с таким инструментом можно почти целиком исключить использование ручного труда при автоматизации выпуска аудиокниг, который пока необходим в большинстве случаев, – говорит Михаил Пожидаев.

Над сервисом ученые Томского госуниверситета работают в партнерстве с компанией «Директ-Медиа», которая в прошлом году сделала первый заказ на озвучивание 100 книг. Но производить сто книг за год мало, нужны совершенно другие объёмы. Поэтому процесс и нужно было максимально автоматизировать. 

Как утверждают авторы проекта, работу нужно продолжить. Еще предстоит устранить оставшийся процент ошибок и вывести проект на рынок. При этом принципиальна и социальная составляющая – для незрячих людей сервис и дальше будет работать бесплатно, его эффективность уже опробовали в школе-интернате для детей с нарушениями зрения.