Полный глоссарий интернет-маркетинга
 
 
 

Лемматизация

 
 
Теги:
SEO

Что такое лемматизация?

Лемматизация — часть алгоритма поисковых систем, которая заключается в морфологическом анализе, приведении словоформы к лемме, ее нормальной словарной форме. Несмотря на то, что этот механизм используется в практическом языкознании для морфологического анализа текстов, его применяют и для интернет-ресурсов.

Как происходит лемматизация? Например, слово «кошкам» следует преобразовать в лемму «кошка». То есть, поставить в единственное число и именительный падеж. По такой же схеме работают и с прилагательными. Глагол при лемматизации становится инфинитивом.

Под эффективностью поисковой индексации понимают скорость проведения операции. Она напрямую зависит от загруженности обрабатываемого массива данных видоизмененными словами и словоформами. Чем больше сложных слов приходится обрабатывать при индексации, тем меньше скорость процесса.

Для снижения нагрузки на механизм индексирования проводят программную лемматизацию. Уменьшение количества видоизмененных форм, приведение их к леммам существенно увеличивает скорость процесса. Для этого используют лемматизаторы — программы и механизмы, упрощающие массивы данных. Такие программы используют не только поисковые машины, но и вебмастера. Причина в том, что из-за языковых нюансов лемматизация запросов не всегда оказывается точной, поэтому особенности морфологического анализа стоит учитывать при оптимизации текстов. Заменяя неоднозначные словоформы синонимами, можно добиться повышения позиций сайта и релевантности выдачи в целом.

Для выделения лемм в текстах существуют онлайн-сервисы, но их алгоритмы проще, чем у поисковых систем. Специалисты по SEO и контекстной рекламе чаще используют лемматизацию в Excel при помощи профессиональных инструментов.

Что такое лемматизация

Лемматизация в SEO помогает оптимизаторам подобрать семантическое ядро для сайта. Роль технологии в этом процессе в том, что:

Кроме ускорения индексации, поисковики используют лемматизацию для оценки уникальности контента, разделяя содержимое страницы на шинглы и анализируя затем леммы в пределах каждого из них. Программа ищет выбранный набор лемм в других текстах, которые также прошли первый пункт. В случае нахождения совпадений, леммы второго текста признаются не уникальными.

См. также:
XML карта
Дублированный контент
Внутренние факторы ранжирования
Биржа ссылок
Атрибуция сайта
Аудит сайта

 
 
Показать все термины (668)
 
Русский:
А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я
 
English:
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
 
Тесты - проверьте свои знания!