Лемматизация — часть алгоритма поисковых систем, которая заключается в морфологическом анализе, приведении словоформы к лемме, ее нормальной словарной форме. Несмотря на то, что этот механизм используется в практическом языкознании для морфологического анализа текстов, его применяют и для интернет-ресурсов.
Как происходит лемматизация? Например, слово «кошкам» следует преобразовать в лемму «кошка». То есть, поставить в единственное число и именительный падеж. По такой же схеме работают и с прилагательными. Глагол при лемматизации становится инфинитивом.
Под эффективностью поисковой индексации понимают скорость проведения операции. Она напрямую зависит от загруженности обрабатываемого массива данных видоизмененными словами и словоформами. Чем больше сложных слов приходится обрабатывать при индексации, тем меньше скорость процесса.
Для снижения нагрузки на механизм индексирования проводят программную лемматизацию. Уменьшение количества видоизмененных форм, приведение их к леммам существенно увеличивает скорость процесса. Для этого используют лемматизаторы — программы и механизмы, упрощающие массивы данных. Такие программы используют не только поисковые машины, но и вебмастера. Причина в том, что из-за языковых нюансов лемматизация запросов не всегда оказывается точной, поэтому особенности морфологического анализа стоит учитывать при оптимизации текстов. Заменяя неоднозначные словоформы синонимами, можно добиться повышения позиций сайта и релевантности выдачи в целом.
Для выделения лемм в текстах существуют онлайн-сервисы, но их алгоритмы проще, чем у поисковых систем. Специалисты по SEO и контекстной рекламе чаще используют лемматизацию в Excel при помощи профессиональных инструментов.
Лемматизация в SEO помогает оптимизаторам подобрать семантическое ядро для сайта. Роль технологии в этом процессе в том, что:
Кроме ускорения индексации, поисковики используют лемматизацию для оценки уникальности контента, разделяя содержимое страницы на шинглы и анализируя затем леммы в пределах каждого из них. Программа ищет выбранный набор лемм в других текстах, которые также прошли первый пункт. В случае нахождения совпадений, леммы второго текста признаются не уникальными.
См. также:
XML карта
Дублированный контент
Внутренние факторы ранжирования
Биржа ссылок
Атрибуция сайта
Аудит сайта