Глоссарий Интернет-маркетинга

Что такое лемматизация?

Лемматизация — часть алгоритма поисковых систем, которая заключается в морфологическом анализе, приведении словоформы к лемме, ее нормальной словарной форме. Несмотря на то, что этот механизм используется в практическом языкознании для морфологического анализа текстов, его применяют и для интернет-ресурсов.

Как происходит лемматизация? Например, слово «кошкам» следует преобразовать в лемму «кошка». То есть, поставить в единственное число и именительный падеж. По такой же схеме работают и с прилагательными. Глагол при лемматизации становится инфинитивом.

Под эффективностью поисковой индексации понимают скорость проведения операции. Она напрямую зависит от загруженности обрабатываемого массива данных видоизмененными словами и словоформами. Чем больше сложных слов приходится обрабатывать при индексации, тем меньше скорость процесса.

Для снижения нагрузки на механизм индексирования проводят программную лемматизацию. Уменьшение количества видоизмененных форм, приведение их к леммам существенно увеличивает скорость процесса. Для этого используют лемматизаторы — программы и механизмы, упрощающие массивы данных. Такие программы используют не только поисковые машины, но и вебмастера. Причина в том, что из-за языковых нюансов лемматизация запросов не всегда оказывается точной, поэтому особенности морфологического анализа стоит учитывать при оптимизации текстов. Заменяя неоднозначные словоформы синонимами, можно добиться повышения позиций сайта и релевантности выдачи в целом.

Для выделения лемм в текстах существуют онлайн-сервисы, но их алгоритмы проще, чем у поисковых систем. Специалисты по SEO и контекстной рекламе чаще используют лемматизацию в Excel при помощи профессиональных инструментов.

Что такое лемматизация

Лемматизация в SEO помогает оптимизаторам подобрать семантическое ядро для сайта. Роль технологии в этом процессе в том, что:

лемматизация запросов исключает дубли. К примеру, «куплю дом в мск» и «купить дом Москва» — это одинаковые запросы;
ключи в исходной форме гораздо проще отсортировать;
можно оценить частотность того или иного запроса.

Кроме ускорения индексации, поисковики используют лемматизацию для оценки уникальности контента, разделяя содержимое страницы на шинглы и анализируя затем леммы в пределах каждого из них. Программа ищет выбранный набор лемм в других текстах, которые также прошли первый пункт. В случае нахождения совпадений, леммы второго текста признаются не уникальными.

См. также:
XML карта
Дублированный контент
Внутренние факторы ранжирования
Биржа ссылок
Атрибуция сайта
Аудит сайта