Историки ТГУ ускорят исследования средневековых текстов при помощи ИИ
23 Марта 2021

Историки Томского государственного университета к 2022 году обучат искусственный интеллект анализировать средневековые документы на немецком языке. Это поможет им находить в массивах текстов нужные примеры изменений в значении терминов. Предполагается, что такой цифровой архивариус будет находить нужную информацию за часы, в то время как вручную на подобную работу может уйти вся жизнь.

— Множество документов, текстов 14-15 веков во Франции, Германии и Англии уже оцифрованы, в частности, грамоты. На основании больших данных, а там текстов очень большое количество, ИИ сможет проанализировать формирование тех или иных социальных практик. Например, посмотреть по текстам, которые сохранились, как люди начинают использовать слова со строго определенной целью, когда появляется абстрактное, собирательное значение, — рассказал доцент кафедры истории древнего мира, средних веков и методологии истории ФИПН ТГУ Антон Котов.

Как поясняют ученые, у будущей разработки пока нет известных близких аналогов. Сейчас используются лишь программы по анализу текста, однако все они работают с уже стандартизированными и живыми языками. А средневековые языки очень от них отличаются, например, грамматикой, правописанием, отсутствием стандартов письма. Некоторые тексты Германии того периода нейросети вообще не могут определить как написанные на немецком языке. Причем обычно анализируют тексты, где за понятием уже закреплено какое-то значение и все ограничивается этим определением. Здесь же идея в том, чтобы посмотреть как влияют адресат и адресант на высказывание. Грамоты эти чаще всего письма, послания, что позволяет рассмотреть вариативность использования термина. 

Немецкие грамоты

Кроме того, благодаря искусственному интеллекту можно анализировать семантику – находить подходящие по смыслу слова, определять, когда впервые слово стали употреблять в ином значении, а также кто начал это делать.  

Антон Котов

— Например, у слова «Bund» в немецком языке одно из значений — «союз». Сейчас оно входит в состав слова, которое мы переводим как «федерация», однако изначально это слово было связано с печатью: тогда не ставили печать на бумаге, как сейчас, а прикрепляли к документу восковой оттиск печати на нитях, подвязывались. Таким образом, «Bund» как бы означало согласие с тем документом. Мы должны научить нейросеть в том числе отслеживать развитие данного понятия, — поясняет Антон Котов.

Внедрение данной цифровой технологии позволит существенно ускорить лингвистические и исторические исследования. Антон Котов отметил, что это можно сделать и вручную, но нужно огромное количество времени, так как это очень затратно и сложно. Ученые на составление подобных каталогов тратили всю свою жизнь, а ИИ должен это делать быстрее — возможно, в течение нескольких часов. Историкам останется лишь выявлять закономерности. Завершить обучение нейросети планируется к 2022 году.