MatrixNet
MatrixNet — основной алгоритм ранжирования Яндекса, разработанный в 2009 году. Использует градиентный бустинг на деревьях решений (gradient boosted decision trees) для предсказания релевантности страницы.
История
MatrixNet был запущен в декабре 2009 года и заменил предыдущий алгоритм статистического ранжирования. Его разработали инженеры Яндекса под руководством Антона Слесарева и Александра Крамника. Это была одна из первых публичных реализаций gradient boosting для поиска (раньше Яндекс использовал ranknet и MART).
Принцип работы
MatrixNet принимает на вход вектор признаков страницы (несколько сотен параметров: PageRank, BM25, текстовые соответствия, поведенческие данные, региональные факторы) и выдаёт оценку релевантности — число от 0 до 1. Чем выше оценка — тем выше позиция в выдаче.
Особенность MatrixNet — устойчивость к шуму в обучающих данных и способность работать с разреженными признаками. Это позволяет обновлять модель по новым данным без переобучения с нуля.
Что включают в признаки
Контентные признаки: BM25, TF-IDF, плотность ключевых слов, длина текста.
Ссылочные признаки: PageRank, тематичность ссылок, авторитет домена.
Поведенческие: CTR в выдаче, dwell time, pogo-sticking, доля возвратов в поиск.
Региональные: соответствие региона сайта и региона пользователя, локальная релевантность.
Временные: свежесть контента, частота обновлений, тренды по запросу.
MatrixNet и YATI
В 2020 году Яндекс запустил YATI (Yandex Advanced Transformer-based Intelligence) — нейросетевую модель на базе трансформеров, которая работает поверх MatrixNet и улучшает понимание семантики запросов. MatrixNet остаётся основой ранжирования, YATI — улучшение для сложных семантических случаев.
Главное в статье
- MatrixNet — основной алгоритм ранжирования Яндекса с 2009 года
- Использует gradient boosting на сотнях признаков
- Поведенческие факторы — одна из самых важных групп признаков
- С 2020 года работает в связке с нейросетевой моделью YATI
Частые вопросы
Влияет ли MatrixNet на накрутку ПФ?
Да. Поведенческие признаки (CTR, dwell time, возвраты в поиск) — одни из основных входов MatrixNet. Накрутка ПФ работает именно через изменение этих признаков, что приводит к перерасчёту оценки релевантности.
Когда MatrixNet обновляется?
Регулярно, примерно раз в неделю. Большие апдейты с изменением весов или добавлением новых признаков — раз в квартал. Полная переобучка модели — раз в 6–12 месяцев.