Альтернатива «ОK Google»: студент HITs стал 2-м на престижном конкурсе
3 Августа 2021

Студент 4 курса Высшей IT-школы Томского госуниверситета Роман Выгон занял второе место в соревновании Auto-KWS (Personalized Keyword Spotting) 2021 Challenge, которое проводится в рамках одной из крупнейших в мире конференций по распознаванию речи – Interspeech. Организаторы этого конкурса – компания 4Paradigm совместно с Национальным университетом Тайваня, Северо-Западным политехническим и Южным научно-технологическим университетами Китая.

Научное соревнование по выделению из речи персонализированного ключевого слова Auto-KWS проводит консорциум китайских университетов и компаний. Решение этой задачи сейчас находится на переднем крае IT-технологий и привлекает большое внимание специалистов как в научных кругах, так и в промышленности. С помощью такой технологии работают умные колонки, голосовые помощники в смартфонах и иные устройства, которые имеют речевой интерфейс.

Роман Выгон

– В рамках конкурса нужно было разработать технологию, с помощью которой устройство можно будить не стандартным словом, заранее заданным производителем, например, «ОК, Google», а таким, которое человек придумал сам. Пользователь несколько раз произносит слово или фразу, система её запоминает и учится распознавать среди остального шума, – объясняет Роман Выгон.

Конкурс длился полтора месяца, за это время около 20 команд пытались предложить самое эффективное решение. Как отмечает Роман, принять участие в таком конкурсе было интересно, потому что тематика совпадает со сферой исследования студента, а поработать над технической составляющей удалось в рамках стажировки в компании NTR Labs, где можно было рассчитывать на помощь коллег.

Стажировка

Ранее, 2 года назад, Роман Выгон совместно с одним из основателей NTR Labs Николаем Михайловским опубликовали научную работу по KWS – Learning Efficient Representations for Keyword Spotting with Triplet Loss, в которой на наборе данных Google Commands получили лучший в мире результат (State of the Art - SOTA). Сейчас для качественного распознавания персонализированных ключевых слов на китайском языке Роман разработал кардинально новую технологию, описание которой также будет опубликовано.

Обучение в Высшей IT-школе ТГУ основано на инновационном подходе – модели 2+2: первые 2 года обучения студент нарабатывает ключевые профессиональные навыки, посвящая достаточное количество времени прокачке soft skills и self skills. На 3 и 4 годах он может сам спроектировать дизайн своего учебного плана, основываясь на одном из трёх треков: профессиональные стажировки в компании, предпринимательский стартап или исследовательская работа. В конце обучения студенты защищают дипломную работу на основе своих проектов, над которыми они работали в течение последних двух лет.