После описания процесса парсинга сайтов 🏆 рейтингов университетов и короткой дискуссии в Телеграмм 💬 группе на эту тему, действуя по принципу «критикуешь предлагай», захотелось построить «свой рейтинг университетов с блекджеком и прозрачной методологией».
Что не нравится сейчас
Если взять самые известные рейтинги университетов, как международные, так и сугубо российские, лично мне не понятна их практическая ценность, вернее её отсутствие, в работе университетов. Субъективно кажется, что когда выходит/обновляется очередной рейтинг наши вузы, естественным образом, делятся на 2 категории:
- «Греются в лучах славы», если они попали или заняли какие-то достойные места, что очень относительно, хвастаясь об этом в СМИ или на своих сайтах;
- «Обтекают» или просто игнорируют рейтинги как таковые 🤷♂️
Весь «Проект 5-100» был посвящён вхождению наших университетов в ТОП 100 международных рейтингов. Критиковалась сама поставленная цель проекта как на старте, так и в процессе, что в конечном счёте привело к появлению устоявшегося термина «рейтингобесие».
Не буду сваливаться в обсуждение всех проблем зарубежных рейтингов университетов, которые с началом СВО только усугубились. Об этом много сказано и написано намного более умными людьми. Лишь зафиксирую своё субъективное мнение — рейтинги максимально упрощённый инструмент, для тех, кто «не в теме», чтобы быстро проранжировать университеты и сформировать короткий список, для дальнейшей работы. Например, очевидна польза для абитуриентов и их родителей. А вот практическая ценность для самих университетов, которая позволяет им формировать список конкретных задач, направленных на развитие, сомнительна.
Просится какой-то более профессиональный инструмент (кажется, что даже уместен термин «Профессиональные рейтинги университетов»), который периодически фиксировал бы текущее положение дел и подсвечивал пути дальнейшего развития в определённой области.
Профессиональные рейтинги
Опираясь на свой профессиональный опыт работы в университетах, где мне наиболее близка проблематика «сайтов университетов». Я в процессе работы сталкивался с двумя рейтингами, которые в той или иной степени эксплуатировали обозначенную тему:
- Зарубежный рейтинг «Web of Universities»
- Отечественный «Рейтинг медийной активности вузов (М-Рейтинг)»
Оба рейтинга хороши, за счёт эксплуатации более узкой тематики, связанной с университетами, но аналогично «большим рейтингам» страдают минимальной практической пользой для университетов. По отдельности разберу почему на мой взгляд так получается.
Web of Universities
Позиции в рейтинге на момент написания данной страницы (август 2023), формируется из:
- VISIBILITY 50% — количество внешних сетей (подсетей), ссылающихся на веб-страницы сайта университета (нормализуется, а затем выбирается среднее значение). Источником данных для расчётов являются 2 сервиса Ahrefs и Majestic (оба сервиса, в той или иной форме, не дают работать с собой пользователям из 🇷🇺 РФ).
- TRANSPARENCY (or OPENNESS) 10% — количество цитирований от ТОП 310 авторов (при этом исключаются ТОП 20 авторов из списка). Источник информации «Академия Google».
- EXCELLENCE (or SCHOLAR) 40% — количество статей, входящих в ТОП 10% наиболее цитируемых по каждой из всех 27 дисциплин полной базы данных. Источник Scimago.
Раньше ещё был показатель «PRESENCE», который формировался по данным поисковой системы Google. Показатель складывался из количества проиндексированных поисковой системой страниц на доменном имени университета.
Как видно, рейтинг непосредственно связан с web-составляющей университетов только на 50% (когда был актуален показатель «PRESENCE 5%», ситуация была +/- аналогичная)... Но самая главная моя «претензия» — web-частью рейтинга очень легко манипулировать не улучшая не то что университет, а даже его сайт. Достаточно просто закупиться внешними ссылками на сайт университета, следя за тем, чтобы IP адреса доноров не пересекались (это не гипотеза, проверено лично в работе). Когда-то на сайте, где-то было уточнение, что не должно быть пересечений в классе C сетей, что немного усложняло задачу, но сейчас я этого не нашёл.
Саму возможность манипуляции подтверждают сами составители рейтинга:
During the last years we discovered and fight unethical practices intending to manipulate (improving) the ranks of certain universities. In many cases these bad practices are so serious that local authorities should be called, so we decided not to act unilaterally regarding these activities. If you suspect any wrongdoing, please contact with the university head, local or national authorities and/or journalists.
На мой взгляд позиция очень наивная 🤓 и в практической плоскости бесполезна. Но рейтинг их, он продолжает выходить и даже слегка модифицируется. Пожелаем им удачи 👍
М-Рейтинг
Рейтинг родившийся в недрах Министерства науки и образования РФ, который «учитывает эффективность работы университетов в медийном пространстве» и сайты университетов являются только 1/3 общего рейтинга. Но тут как есть, аббревиатуру «web» рейтинг не эксплуатирует и ладно, сосредоточимся на критике именно этой части рейтинга.
На сайте отсутствует методология составления рейтинга, есть только:
Как улучшить позицию в рейтинге
Высокое значение M-RATE демонстрируют университеты, которые гармонично развивают собственные медийные команды. Рейтинг составлен таким образом, что небольшие вузы могут конкурировать с крупными федеральными университетами. Ежемесячно показатели вузов анализирует команда аналитиков. Они следят за тем, чтобы в рейтинге не учитывались любого вида аномалии, связанные с механическим набором показателей.
Практическое значение данного текста на мой взгляд стремится к нулю 🤷♂️ Покопавшись в поиске можно найти на сайте министерства документ за август 2021 г., где фигурируют 3 показателя, из которых формируется рейтинг по сайтам:
- Trafficstd — совокупный трафик за отчётный месяц
- Av.Time — среднее время, которое пользователь проводит на сайте вуза
- 1 — Bounce Rate — количество отказов
По самим названиям показателей и поиску можно выйти на сервис similarweb и сделать предположение/допущение, что именно он используется как источник данных. Далее мы можем воспроизвести вопросы, которые возникнут у людей, отвечающих за сайт, при попытке начать работу по улучшению позиций в рейтинге:
- На сколько сторонний ресурс, коим является similarweb относительно сайтов университетов, оценивает корректно все показатели. Могу ли я ориентироваться на доступные мне, более объективные цифры из Google Analytics и/или Яндекс.Метрики?
- Совокупный трафик сайта всегда будет больше у больших университетов, если не выходить за рамки основной аудитории (абитуриенты, студенты и сотрудники университета). А расширять тематику сайта, чтобы нагнать дополнительный трафик, или ещё хуже закупать его и ещё как-то им манипулировать на постоянной основе, это антипаттерн...
- Большой вопрос по отказам. Если верно допущение, что рейтинг использует данные similarweb, он, как и Google считает отказом просмотр не более одной страницы, в отличии от Яндекса, который отслеживает дополнительные параметры.
- Борьба за увеличение среднего времени на сайте кажется странным, т.к. сайты университетов не являются развлекательными ресурсами или СМИ и скорей наоборот должны отвечать на вопросы пользователей максимально быстро и просто 🤔
И таких вопросов, без чёткой методологии рейтинга нагенерировать можно очень много.
Но даже не зная, ничего о методологии, мы можем посмотреть коэффициент корреляции очков, полученных за сайт университета, к количеству бюджетных мест, которые есть на сайте самого рейтинга (код собирающий данные см. на GitHub, получившиеся данные в ⬇️ csv и ⬇️ excel. Его значение составляет 0,764 и на графике ниже это также хорошо видно. Отсутствие «правил игры» скорей будет демотивировать сотрудников отвечающих за сайт 😔
На примере этих двух рейтингов мы видим, что воспроизводится что-то вроде «эффекта наблюдателя», которую пытаются «фиксить» странным образом. На мой же взгляд этот недостаток прекрасен и должен стать ключевым преимуществом в «профессиональных рейтингах университетов», подсказывающим что и как можно сделать лучше.
Собираем свой рейтинг
Сразу надо определиться для кого рейтинг будет иметь практическое значение — сотрудники университетов и/или их подрядчики, задействованные в работах связанных с сайтами университетов. С некоторым упрощением, далее делим эту группу на сферы ответственности:
- Дизайн — дизайнеры, юзабилити специалисты и др. специалисты, от которых зависит максимально субъективная часть сайта, связанная с красотой и удобством.
- Разработка — программисты, верстальщики, администраторы серверов, от которых зависит техническая составляющая сайтов университета.
- Интернет маркетинг — SEO-специалисты, копирайтеры и др. специалисты от которых зависит эффективность охвата целевой аудитории сайта.
Руководству университета рейтинг также будет полезен, как некоторый KPI для довольно дорогостоящей части специалистов (собственные это сотрудники или внешние тут не важно).
Осознанное решение, что мой гипотетический рейтинг будет покрывать только две сферы «разработка» и «интернет маркетинг». Сфера «дизайна» очень субъективна и лично мне, опираясь на предыдущий опыт, не хочется трогать её даже довольно длинной палкой 🙅♂️
О метриках для «Разработки» я подробно остановлюсь в данном материале, а вот «Интернет маркетинг», как отдельную большую, но очень интересную тему, разберу в следующем посте, получив обратную связь на этот текст.
Пузомерки разработчиков
Сфера сайтов, а скорей даже шире «web-разоботки», возможно одна из немногих областей, где крайне просто, при наличии желания, получать какие-то объективные данные для самоанализа. Тут Яндекс.Вебмастер Вам подскажет что не так, часть данных Яндекс.Метрика и Google Analytics будет полезна для разработчиков, постоянно мониторинг производительности и ошибок (для примера сервис Sentry), вся работа скорей всего ведётся через git и GitLab, а команды, по идее, должны использовать какой-нибудь трекер задач. Умеряться можно 🤗
Но проблема в том, что это всё относительно легко, когда ты внутри организации и у тебя есть доступ к данным, связанным с разработкой. Не буду останавливаться на описании процесса перебора всех инструментов, которые гипотетически можно применить для ранжирования сайтов университетов. Остановился я на PageSpeed Insights от Google (очень хотелось что-то от Яндекса, но схожий инструментарий в Я.Вебмастере доступен только владельцам сайтов).
PageSpeed Insights может дать нам информацию по любой странице по ниже представленным категориям, как для компьютеров, так и для мобильных устройств.
- Производительность — показатели, которые меряют скорость Вашего сайта для конечного пользователя. Чем быстрее «рендерим» сайт, тем лучше 👍
- Специальные возможности — проверки на ряд технических возможностей, а также на сколько они правильно используются на проверяемой web-странице.
- Рекомендации — проверяются «лучшие практики» на странице.
- Поисковая оптимизация — на сколько корректно используются технические составляющие в этой категории. Тут предвижу недоумение читателей: «SEO-шные штучки вешать на технарей? 😳». Но мой ответ «Да», т.к. именно программисты и верстальщики должны предоставить SEO-шникам весь спектр возможностей, которыми располагает современная web-разработка в этой части (пузомерками результатов работы SEO-шников займёмся в следующих постах). Часть необходимого Ваш код в состоянии генерировать самостоятельно, оставшуюся часть, потребуйте в интерфейсе системы управления сайтом.
Весь спектр показателей, которые проверяет сервис проще всего посмотреть на примере конкретного сайта, а также можно почитать в документации.
Очень важным фактором, почему я остановился на PageSpeed Insights стало наличие API, с достаточными для моей задумки лимитами (в последствии и CLI утилита нашлась, которая вообще ничем не ограничена). Приступим к сбору данных.
Собираем данные
Первое, довольно логичное, что приходит в голову — прогнать через PageSpeed Insights главные страницы сайтов университетов. Для этого технически честно определяем их по доменным именам университетов. И уже в начале часть вузов «сели в лужу», из-за косяков с DNS-записями для своего доменного имени 🤦♂️
Все возможные вариации адресов, которые пользователь может вбить в строку браузера должны заканчиваться для него работающей страницей сайта, причём одной и той же 😏 Например для доменного имени best-univeristy.ru
, должны работать все 4 адреса (если ещё не затащили HTTPS на сайт, тогда соответственно 2): http://best-univeristy.ru
, http://www.best-univeristy.ru
, https://best-univeristy.ru
, https://www.best-univeristy.ru
.
Ещё очень важно понимать, что, если «у Вас всё работает» это не значит, что работает у всех остальных и причин для этого много. Самые распространённые из них:
- Во внутренних DNS-ках университета всё прописано корректно, а во внешних беда.
- Браузеры сейчас на столько умные, что, если вы один раз побывали по работающему адресу, а потом пробуете не работающий, Вас незаметно перенаправят на работающий.
Для проверки внешних DNS используйте какой-нибудь вариант из поиска.
Источником по доменным именам университетов для меня был исходно 1-мониторинг за 2021 год (за 2022 год, на момент написания ещё не опубликован на сайте 😢), который заполняют сами университеты. Мой код, который технически честно собирает всё в кучку и определяет главные страницы можно посмотреть на GitHub (результаты в ⬇️ csv и ⬇️ excel)
Почти все главные страницы собраны в автоматическом режиме, оставшиеся единицы добрал руками 👌, можно пробовать выстроить рейтинг по главным страницам университетов «Приоритет 2030» и «Передовые инженерные школы», с которыми я работаю на данном сайте.
Сбор данных для рейтига выполнялся в 3 этапа:
- С помощью API, данным кодом. Но по каким-то, не ведомым мне, причинам, по части сайтов, данные упорно не собирались (мобильные и/или компьютеры).
- С помощью CLI утилиты, вручную. Из-за этого часть показателей связанные со скоростью загрузки контента нельзя считать абсолютно объективными/сравнимыми, т.к. провайдеры у нас с Google разные 🤷♂️ Но я решил, что для обсуждения самой методологии сойдёт 👌
- Далее получившееся, вот этим кодом, собрал в таблицу (⬇️ csv и ⬇️ excel). Упрощенный вариант таблицы, фактически рейтига, представлен ниже.
№ | Университет | Домен | Результат |
---|---|---|---|
1 | ЧГУ им. А.А. Кадырова | chesu.ru | 7.16 |
2 | МГУ им. Н.П. Огарёва | mrsu.ru | 7.07 |
3 | КНИТУ | kstu.ru | 6.93 |
4 | ТГАСУ | tsuab.ru | 6.83 |
5 | Московский Политех | mospolytech.ru | 6.72 |
6 | РУТ (МИИТ) | miit.ru | 6.70 |
7 | РУДН | rudn.ru | 6.70 |
8 | АлтГУ | asu.ru | 6.70 |
9 | ГУАП | guap.ru | 6.64 |
10 | НГТУ | nstu.ru | 6.63 |
11 | НИЯУ МИФИ | mephi.ru | 6.61 |
12 | МГИМО | mgimo.ru | 6.60 |
13 | ОмГТУ | omgtu.ru | 6.57 |
14 | ИрНИТУ | istu.edu | 6.44 |
15 | ЮЗГУ | swsu.ru | 6.37 |
16 | Иннополис | innopolis.university | 6.35 |
17 | ТИ им. Б. Щукина | htvs.ru | 6.32 |
18 | РАНХиГС | ranepa.ru | 6.31 |
19 | СКФУ | ncfu.ru | 6.31 |
20 | ВШЭ | hse.ru | 6.31 |
21 | Вавиловский университет | sgau.ru | 6.29 |
22 | ТУСУР | tusur.ru | 6.27 |
23 | СВФУ | s-vfu.ru | 6.27 |
24 | СибГМУ | ssmu.ru | 6.25 |
25 | БелГУ | bsuedu.ru | 6.24 |
26 | ВГИК | vgik.info | 6.23 |
27 | КФУ им. В.И.Вернадского | cfuv.ru | 6.18 |
28 | ПНИПУ | pstu.ru | 6.17 |
29 | ТГУ им. Г.Р. Державина | tsutmb.ru | 6.17 |
30 | НовГУ | novsu.ru | 6.16 |
31 | ТПУ | tpu.ru | 6.16 |
32 | ТюмГУ | utmn.ru | 6.15 |
33 | МИРЭА | mirea.ru | 6.13 |
34 | КубГАУ | kubsau.ru | 6.07 |
35 | МАИ | mai.ru | 6.06 |
36 | ТОГУ | pnu.edu.ru | 6.06 |
37 | ТГПУ | tsput.ru | 6.06 |
38 | СтГАУ | stgau.ru | 6.03 |
39 | Дальневосточный ГАУ | dalgau.ru | 6.00 |
40 | КамГУ им. Витуса Беринга | kamgu.ru | 5.98 |
41 | РХТУ | muctr.ru | 5.98 |
42 | ПГУПС | pgups.ru | 5.95 |
43 | ПИМУ | pimunn.ru | 5.94 |
44 | СПбГУПТД | sutd.ru | 5.94 |
45 | Академия Вагановой | vaganovaacademy.ru | 5.94 |
46 | ЮРГПУ | npi-tu.ru | 5.92 |
47 | ТГМУ | tgmu.ru | 5.92 |
48 | ТомГУ | tsu.ru | 5.92 |
49 | АГУ | adygnet.ru | 5.92 |
50 | БФУ им. И. Канта | kantiana.ru | 5.92 |
51 | ГИТИС | gitis.net | 5.91 |
52 | РНИМУ | rsmu.ru | 5.90 |
53 | СГМУ (Смоленск) | smolgmu.ru | 5.89 |
54 | ТУЛГУ | tulsu.ru | 5.89 |
55 | МГТУ им. Н.Э. Баумана | bmstu.ru | 5.87 |
56 | Самарский университет | ssau.ru | 5.87 |
57 | СПбГМТУ | smtu.ru | 5.85 |
58 | КубГМУ | ksma.ru | 5.82 |
59 | КБГУ | kbsu.ru | 5.82 |
60 | СибГУ | sibsau.ru | 5.81 |
61 | НИУ МГСУ | mgsu.ru | 5.80 |
62 | СФУ | sfu-kras.ru | 5.80 |
63 | МИСИС | misis.ru | 5.77 |
64 | АГИКИ | agiki.ru | 5.76 |
65 | СПбГЭТУ «ЛЭТИ» | etu.ru | 5.76 |
66 | ЮУРГУ | susu.ru | 5.75 |
67 | БашГУ | bashedu.ru | 5.75 |
68 | УГМУ | usma.ru | 5.74 |
69 | АмГУ | amursu.ru | 5.70 |
70 | НИУ МЭИ | mpei.ru | 5.69 |
71 | АГУ им. В.Н. Татищева | asu.edu.ru | 5.69 |
72 | МГПУ | mgpu.ru | 5.68 |
73 | ЮФУ | sfedu.ru | 5.67 |
74 | СПбПУ | spbstu.ru | 5.67 |
75 | УГНТУ | rusoil.net | 5.65 |
76 | МГМСУ | msmsu.ru | 5.64 |
77 | УРФУ | urfu.ru | 5.62 |
78 | СПГУ | spmi.ru | 5.61 |
79 | КГЭУ | kgeu.ru | 5.61 |
80 | ОГУ им. И.С. Тургенева | oreluniver.ru | 5.60 |
81 | ЗабГУ | zabgu.ru | 5.56 |
82 | РЭУ им. Г.В. Плеханова | rea.ru | 5.56 |
83 | УДГУ | udsu.ru | 5.54 |
84 | Сеченовский Университет | sechenov.ru | 5.54 |
85 | РГУ нефти и газа | gubkin.ru | 5.52 |
86 | УЛГУ | ulsu.ru | 5.52 |
87 | ПсковГУ | pskgu.ru | 5.50 |
88 | СевГУ | sevsu.ru | 5.49 |
89 | МГУПП | mgupp.ru | 5.48 |
90 | ЯрГУ | uniyar.ac.ru | 5.46 |
91 | БГСХА им. В.Р. Филиппова | bgsha.ru | 5.46 |
92 | КНИТУ-КАИ | kai.ru | 5.41 |
93 | КФУ | kpfu.ru | 5.41 |
94 | КалмГУ | kalmgu.ru | 5.41 |
95 | МарГУ | marsu.ru | 5.39 |
96 | НГУ | nsu.ru | 5.39 |
97 | НГТУ им. Р.Е. Алексеева | nntu.ru | 5.36 |
98 | КемГУ | kemsu.ru | 5.35 |
99 | МГЮА | msal.ru | 5.30 |
100 | СГУ | sgu.ru | 5.30 |
101 | МИИГАиК | miigaik.ru | 5.25 |
102 | БГМУ | bashgmu.ru | 5.23 |
103 | ТГУ | tltsu.ru | 5.20 |
104 | ВятГУ | vyatsu.ru | 5.19 |
105 | МГУ им. Г. И. Невельского | msun.ru | 5.19 |
106 | МГТУ СТАНКИН | stankin.ru | 5.16 |
107 | ВМА | vmeda.org | 5.16 |
108 | РГАУ-МСХА | timacad.ru | 5.15 |
109 | ВолгГТУ | vstu.ru | 5.04 |
110 | НГУ им. Н.И. Лобачевского | unn.ru | 5.00 |
111 | ТюмГМУ | tyumsmu.ru | 4.97 |
112 | Воронежский ГАУ | vsau.ru | 4.95 |
113 | СурГУ | surgu.ru | 4.92 |
114 | БГПУ | bgpu.ru | 4.84 |
115 | ПСПбГМУ | 1spbgmu.ru | 4.83 |
116 | ДВФУ | dvfu.ru | 4.80 |
117 | МПГУ | mpgu.su | 4.77 |
118 | РАМ им. Гнесиных | gnesin-academy.ru | 4.76 |
119 | УУНиТ | uust.ru | 4.75 |
120 | МИЭТ | miet.ru | 4.66 |
121 | МФТИ | mipt.ru | 4.61 |
122 | ДВГАФК | dvgafk.com | 4.57 |
123 | ДГТУ | donstu.ru | 4.54 |
124 | УГГУ | ursmu.ru | 4.49 |
125 | СамГМУ | samsmu.ru | 4.47 |
126 | ИТМО | itmo.ru | 4.41 |
127 | БГТУ | bstu.ru | 4.30 |
128 | ПГНИУ | psu.ru | 4.29 |
129 | СГМУ (Архангельск) | nsmu.ru | 4.27 |
130 | Казанского ГМУ | kazangmu.ru | 3.99 |
Из выше представленной таблицы, исключены два университета, которые присутствуют в csv- и excel-файлах. Первый это МГППУ, т.к. они, видимо, решили не продлевать в какой-то момент своё кириллическое доменное имя мгппу.рф (сейчас там не они), которое числится за ними в 1-мониторинге. Также ОГУ, из-за моей ограниченности и лени, которые не позволили быстро побороть их «Работает анти DDoS фильтр. Идет перенаправление на сайт ОГУ...» 🤷♂️
Когда обсуждал саму идею данного рейтига с коллегой из «Интеграции» всплыл интересный вопрос: «А что в сравнении с зарубежными университетами и их сайтами?». Мы уже «впереди планеты всей» или есть куда ещё расти дальше? 🤔
Результаты иностранцев
Данные 🏆 «Шанхайского рейтинга университетов» по предметам содержат ссылки на сайты университетов. Были взяты главные страницы сайтов ТОП университетов по всем странам. Первые 50 строк из полученных результатов на июль 2023 года в таблице ниже.
Сайты университетов 🇸🇪 Швеции вполне могут быть в этом смысле ориентиром 👍 Не поленитесь, пройдите по ссылкам ТОП сайтов иностранных университетов и оцените скорость их загрузки у себя в браузере. При том, что точно будут сетевые потери из-за местоположения.
Подбивая итоги
На мой взгляд, всё технически собирается и можно эту часть будущего рейтинга завернуть в ещё один DAG в Apache Airflow, который с некоторой регулярностью будет собирать необходимые данные. Далее пробросить это в новый Dahsboard в DataLens. Субъективно кажется, что такой технический анализ на регулярной основе должен быть полезен.
Уже есть идеи по улучшению описанных механик, которые надо будет протестировать:
- Собирать метрики только по главной странице сайта университета кажется слишком поверхностным подходом. При реализации попробую ещё дополнительно собирать результаты работы PageSpeed Insights по всем страницам, ссылки на которые фигурируют на главной (по идее всё +/- важное должно «засветиться» на главной). Далее можно сделать среднее по ним, сложить с результатами главной страницы, предварительно сбалансировать их какими-то коэффициентами.
- По каким-то причинам API часть страниц проанализировать не может, поэтому всё точно придётся собирать с помощью CLI-утилиты. Но для этого нужно будет подумать, как решить проблему регионального трафика. Видимо надо делать замеры из разных регионов.
Если у Вас будут дополнительные предложения или конструктивная критика, пишите в Телеграмму группу, всё вместе обсудим 👍