Поиск хорошей жизни: как в ТГУ изучают настроения россиян в соцсетях
21 Февраля 2020

Лаборатория наук о больших данных и проблемах общества ТГУ при поддержке РФФИ реализует проект «Изучение качества жизни россиян по данным соцсетей». Как это происходит? Команда проекта – это огромное количество людей? Весь свой рабочий день они проводят в соцсетях, отслеживая и читая новые посты и комментарии? Все сообщения с негативной тональностью передаются властям и/или силовикам? Нет. Рассказываем подробности – как всё устроено.

Лаборатория наук о больших данных и проблемах общества была создана в ТГУ в 2016 году, ее научным руководителем сейчас является профессор Орегонского университета Михаил Мягков, заведующим – Вячеслав Гойко. Коллектив лаборатории – 20 человек – анализирует открытые данные, в том числе из социальных сетей, работая над различными проектами. Например, исследуют качество жизни россиян, тенденции в благотворительной деятельности, прогнозируют поведение потенциальных абитуриентов вузов... Всё это – на основе цифрового следа пользователей (посты, комментарии, дружественные связи и другое), которые пользователи выкладывают в соцсетях, в частности, «ВКонтакте».

Исследования, которые ведутся в лаборатории, – междисциплинарные, опираются на знания и методы компьютерных наук, математики, психологии, социологии, педагогики, лингвистики, нейронаук, философии, когнитивистики. Сотрудники лаборатории делятся на две категории: аналитики, которые одновременно являются руководителями проектов, и IT-специалисты – они, помогая коллегам-аналитикам, занимаются выгрузкой и обработкой данных.

По инициативе ТГУ в 2017 году был создан Университетский консорциум исследователей больших данных – его участниками стали уже более 20 ведущих университетов РФ. Команды университетов – участников Консорциума проводят совместные научно-исследовательские и прикладные проекты, направленные на решение проблем в социально значимых областях.

– Сначала появляется какая-то тема, предложенная, допустим, нашими партнерами по консорциуму, либо университетом, либо мы сами генерируем идеи, – рассказывает проект-менеджер лаборатории наук о больших данных и проблемах общества Галина Коварж. – Мы в первую очередь, как и при любом исследовании, делаем обзор литературы, существующих методологий, прописываем технические задания. После этого раздаются задачи, и каждый выполняет свою работу. То есть, вот такого, что ровно в два часа мы будем сидеть и смотреть профили пользователей, такого нет. Все зависит от конкретной задачи и от самой цели проекта.

DSC_2114_Kovarzh.jpg

Яркий пример того, как выбираются интернет-пользователи для анализа их высказываний и настроений, как раз показывает проект «Изучение качества жизни россиян по данным соцсетей». На сегодняшний день существуют две теории измерения благополучия людей – объективная и субъективная. Первая подразумевает стандартное использование статистических данных, вторая – использование данных соцопросов, анкетирования и личностных оценок, полученных, например, в процессе социальных экспериментов.

– Но соцопросы чаще всего охватывают небольшую выборочную совокупность людей. В масштабах страны, где численность населения составляет почти 147 млн человек, стандартный соцопрос охватывает в среднем 1,6 тысяч человек. А с помощью соцсетей мы можем получить гораздо больший охват, – подчеркивает Галина Коварж.

В 2019 году команда проекта начала вести разработку методологии анализа благополучия россиян. Идея была в том, чтобы изучать региональные сообщества, но не все подряд, а с исключением «мусорных» сообществ – никаких «отдам даром», «доставка пиццы/суши» и прочего. Был разработан классификатор сообщений по 19-ти категориям социальной, экономической и политической сферы – рассматриваемые сообщества должны были содержать такие сообщения. Изначально отбор велся вручную – почти три недели двое сотрудников лаборатории занимались этой кропотливой работой. Авторство постов из анализа исключается автоматически, в рамках исследований ведется работа с обезличенной информацией.

– В прошлом году мы брали в каждом регионе три крупных населенных пункта и в каждом из этих городов искали подходящие десять сообществ, – вспоминает Галина Коварж. – Сейчас по автоматическому алгоритму поиска у нас в каждом регионе будет анализироваться 400–500 сообществ. Таким образом, мы сможем охватить порядка 80 млн зарегистрированных пользователей соцсетей, из которых более 60 млн – жители России.

После отбора сообществ в дело включается алгоритм, обученный на 60 тысячах сообщений, размеченных вручную. Обработано более 3,3 млн постов за 2018 год (работа проводилась в 2019 году) по тем самым 19 категориям и трем тональностям – позитивной, негативной и нейтральной. Алгоритм также отбрасывает «мусорные» сообщения, по заданной формуле рассчитывает индекс благополучия и на основе полученных данных команда проекта выводит среднемесячные значения по каждой категории и тональности в каждом регионе страны. Так выясняется, насколько люди удовлетворены или нет, например, инфраструктурой, внутренней политикой в регионе, экологической ситуацией и так далее.

– Это не коммерческий заказ – идёт именно научное исследование. Автор этой работы – научный сотрудник лаборатории Евгений Щекотин, это была его идея – заняться изучением именно субъективного благополучия. Но с уже имеющимися наработками в этом году мы выиграли на этот проект грант РФФИ. Он рассчитан на три года, то есть проект долгосрочный – мы намерены смотреть в динамике, как у людей меняется оценка той или иной сферы жизни, – говорит Галина Коварж.

Пока у лаборатории есть данные за 2018 год, сейчас идет выгрузка данных за 2019-й, так что о динамике пока говорить рано. Если же судить о промежуточных результатах, имеются рассчитанные индексы благополучия по каждому региону страны, плюс есть такие индексы для них по каждой категории. Эти итоги были представлены на Школе прикладного анализа данных, которую лаборатория проводила текущей зимой для участников Консорциума.

– Итоговое положительное значение у нас получилось по всем категориям только по Чукотскому автономному округу. Самые высокие отрицательные оценки качества жизни прослеживались, в основном, в регионах Западной Сибири. Наименьшие отрицательные значения зафиксированы в Камчатском крае, Магаданской области, Приморском крае. В Москве так же. Наибольшую обеспокоенность у пользователей вызывает такой показатель, как безопасность, он намного выше в сравнении с другими, – приводит подробности Галина Коварж.

Кроме того, сейчас проект усовершенствуется: начнется автоматический отсев ботов, которые встречаются в самых разных сообществах – в том числе и в тех, которые интересны для анализа индекса благополучия реальных людей.

Разумеется, понятие «хорошая жизнь» для всех разное: кому-то достаточно, чтобы близкие были живы-здоровы и каждый день было чем накормить себя и детей; кому-то для счастья нужны дорогие вещи и возможность часто выбираться на курорты. Команда проекта, разрабатывая свой классификатор, брала мировые методики для измерения качества жизни. При этом выбор был сделан с учетом критики или, наоборот, одобрительных оценок таких методик.

– Мы выбрали те методики, которые, по нашему мнению, наиболее объективно опишут жизнь населения. У нас в классификаторе также уделяется внимание отношениям между людьми, общему эмоциональному состоянию человека – мы не упускаем эти важные личностные аспекты, чтобы не было формального подхода к исследованию, – резюмирует Галина Коварж.

Лаборатория наук о больших данных и проблемах общества ТГУ реализует фундаментальные и прикладные исследования в области сбора и анализа больших данных, а также ведет разработку продуктов и инструментария для работы с большими данными. Лаборатория проводит исследования по широкому спектру социально значимых направлений, включая образование, общественную безопасность, экономику, политику. В настоящее время такие исследования важны для успешной реализации дорожных карт по направлениям «сквозных» цифровых технологий нацпроекта «Цифровая экономика».
Индустриальными партнерами лаборатории выступают технологические компании «Крибрум» (Москва), «Мегапьютер Интеллидженс» (Москва), «Форексис» (Москва) и др. Техническая часть процесса по обработке и хранению данных осуществляется с использованием суперкомпьютера ТГУ.