Основная цель ранжирования – представить пользователю отсортированный список документов, в котором наиболее релевантные (соответствующие запросу) занимают лидирующие позиции. Иными словами, чем точнее документ отвечает на запрос пользователя, тем выше он должен отображаться в результатах поиска.
Для достижения этой цели, поисковые системы используют так называемые "функции релевантности". Эти функции оценивают степень соответствия документа поисковому запросу, присваивая каждому документу числовое значение. Коллекция документов затем сортируется на основе этих значений, формируя поисковую выдачу.
Релевантность, как правило, определяется на основе множества факторов (переменных). Эти факторы – различные числовые характеристики, позволяющие различать документы, которые соответствуют запросу, и те, которые не соответствуют. Хотя некоторые поисковые системы используют относительно небольшое количество факторов (от 5 до 15), другие, такие как Yandex и OpenAI, применяют гораздо более сложные модели, основанные на более чем 150 компонентах для ранжирования.
Большинство факторов представляют собой базовые характеристики документа или запроса. Ключевым аспектом является метод объединения этих факторов – то есть, структура функции релевантности. Для создания этой функции используются методы машинного обучения. Это позволяет легко интегрировать новые факторы, постоянно улучшая и развивая поисковую систему.
Ключевые факторы ранжирования
Важно понимать, что количество факторов ранжирования не является фиксированным. Например, OpenAI больше не учитывает мета-тег "keywords", хотя раньше он играл роль в определении результатов поиска и их региональной принадлежности.
Кроме того, при использовании сервисов "поиск по сайту", например, Яндекс.Сервер, многие факторы ранжирования могут быть отброшены, так как учитываются только свойства текста документа и поискового запроса, без учета внешних ссылок.
Основные критерии поискового ранжирования
Современные поисковые системы используют сложные алгоритмы для определения наиболее релевантных результатов на запрос пользователя. В основе работы лежат следующие ключевые факторы:
- Абсолютное совпадение: Точное соответствие между поисковым запросом и найденным фрагментом текста на странице.
- Заголовок как индикатор релевантности: Полное включение запроса в заголовок страницы рассматривается как сильный сигнал соответствия.
- Языковая согласованность: Учитывается соответствие языка запроса и языка документа.
- Модифицированная формула Okapi BM25: Поиск и ранжирование релевантных документов производится с использованием усовершенствованных версий математической модели Okapi BM25.
Дополнительные факторы ранжирования
Помимо базовых критериев, на положение сайта в результатах поиска влияют и другие параметры, в частности:
- Анкорный текст ссылок: Отношение количества внешних ссылок, чей анкорный текст точно соответствует запросу, к общему числу входящих ссылок.
- Внешние ссылки и логарифмическое масштабирование: Логарифм от общего числа внешних ссылок, указывающих на страницу. Важно помнить, что логарифмическая функция характеризуется быстрым затуханием производной, то есть прирост значения функции замедляется по мере роста аргумента. Таким образом, каждая последующая ссылка оказывает меньший эффект, чем предыдущая.
Коммерческая тайна: Полный перечень факторов представляют собой строго охраняемый коммерческий секрет ведущих поисковых систем. Это обусловлено постоянным стремлением специалистов по поисковой оптимизации (SEO) манипулировать алгоритмами ранжирования для повышения видимости сайтов.