Шинглы
Шинглы — это разбиение текста на последовательные n-граммы (обычно 3-5 слов). Метрика похожести двух текстов — Jaccard similarity между множествами шинглов.
Применение в SEO
Поиск дубликатов контента: если 30%+ шинглов совпадают — Яндекс считает страницу дублем.
Оценка уникальности — антиплагиат сервисы используют шинглы для проверки.
Антифрод накрутки — Яндекс хранит шинглы fingerprint-сигнатур для отлова повторений.
Как обходить
Уникальный контент с свежими формулировками.
Для генерируемых страниц — ротация фраз, уникальные данные на каждой.
Для накрутки — уникальные fingerprint-профили на каждую сессию.
Главное в статье
- Шинглы — метрика похожести через n-граммы
- Используются для дубликатов и антифрода
- Порог Яндекса для дубликата — обычно 30%+
- Качественная программная генерация даёт <30% similarity
Связанные материалы: Антифрод