Термин «искусственная семантика» имеет массу определений, разные люди по-разному его понимают. Поэтому, начать стоит именно с терминологии.Сначала разберемся, что это, и как мы будем понимать искусственную семантику в контексте данной статьи.

Искусственная семантика – это искусственно сформированное семантическое ядро, в основе которого лежит анализ реальной семантики и прогнозирование того, как поисковые запросы будут выглядеть на самом деле. Это определение нельзя назвать самым лучшим, поэтому разберем некоторые практические примеры.

Что собой представляет «прогноз, основанный на реальной семантике»?

Представим такую ситуацию: маркетолог обрабатывает выборку, собранную по запросу «ковш для погрузчика».

Его действия будут соответствовать примерно такому алгоритму:

  • Собираем семантику, используя доступные источники (подсказки, «Wordstat», «MOAB SuggestPro» и «MOAB Pro», базы ключевых слов).
  • Получаем перечень расширенных запросов, в которые входит ключ «ковш для погрузчика».
  • Разбиваем ключевые запросы по группам и кластерам.
  • Получаем группы со схожими запросами, используя которые, создаем заголовки, контент, посадочные страницы и т. д.

В процессе кластеризации могут быть получены абсолютно разные группы запросов, основанные на определенных реальных сущностях, группирующих вокруг себя спрос в данном сегменте:

  • «ножи для ковша погрузчика» + определенное количество расширенных запросов одного типа;
  • «ковш для погрузчика + бренд» — в таких ключевых словах пользователь уточняет бренд погрузчиков, для которых ищет ковш;
  • «вместимость/емкость ковша для погрузчика» — определенное количество расширенных запросов одного типа;
  • «ремонт ковша для погрузчика» + определенное количество расширенных запросов одного типа.

Видим, что в каждой тематике расширенные запросы относятся к более мелким «подтемам», которые зависят от реальных сущностей (бренды, ремонт, ножи), востребованные в оффлайне.

Что касается темы «ковш для погрузчика», то у нас нет возможности спрогнозировать или предсказать эти сущности, если мы не являемся специалистами в сфере погрузчиков. Единственный способ, позволяющий определить проблемы, которые могут возникнуть у пользователей — получить достоверный в статистическом плане массив семантики, после чего провести ее кластеризацию.

Но, с определенными тематиками работать нужно иначе. Иногда маркетолог имеет возможность, изучив и проанализировав статистически достоверную выборку, спрогнозировать то, как эти запросы будут выглядеть, и спроектировать маркетинговую стратегию и сам сайт, учитывая эти данные.

Простой пример – туризм, а именно, вообще все, в основе чего лежат «географические» запросы, связанные с перебором городов/стран как совокупности переменных:

1)      Перечень стран на ресурсе 1001Тур.

2)      Под каждую конкретную страну подготовлен аналогичный контент, отличается лишь сама страна и туристические предложения. Для сравнения возьмем, к примеру, страницы про Абхазию и Мексику:

  • Маленький, одинаковый и неуникальный текст, на страницах изменяется лишь страна.
  • Для создания всех «title» использована единая схема:

<title>%страна% — стоимость отдыха в Абхазии в 2016 вылет из Москвы: курорты, достопримечательности, погода, новости, путевки – 1001 Тур. <title>.

  • Для создания всех «h1» использована единая схема.

Туры в«%страна%» 2016 из Москвы.

  • Активное применение темы прогнозирования запросов для «будущего» трафика.

К примеру, вряд ли кто-то удивится страницам такого формата:

Sem_1

При этом самих предложений этих горячих белорусских туров нет, а это говорит о шаблонном клонировании страниц, а затем выведению на них туров «по соответствию» в строку «страна».

Из индекса эти страницы не убирали, что не стало помехой для занятия ими ТОПовых позиций в «Яндексе».

Но, многие, скорее всего, увидев такие страницы в индексе, могут несколько удивиться:

Sem_2

Маркетологи «1001Тур» правильно подошли к клонированию страниц, и пользуются для этого не только переменными «%страна% и %город%», а еще и переменными «%год%, %месяц%», поскольку понимают, что, быстренько создав страницы без контента для «будущего», уже сейчас они могут обеспечить себе место в поисковой выдаче. По факту, страницу, которой 1-2 года, созданную задолго до того, как появился сам запрос «туры года 2017», будет достаточно сложно «продвинуть» в ТОП где-то в феврале-декабре 2017 года.

Соответственно, мы разобрали главный момент: запросную базу для некоторых тематик, если это нужно, можно поделить на части (переменные), спрогнозировать их значения, после чего получать и контекстный, и органический трафик на базе данных переменных.

Уникальность текста и искусственная семантика

Порой применение искусственной семантики, чтобы получить органический трафик, связано не столько с определенными организационными или техническими сложностями, сколько с очень большим количеством предубеждений и предрассудков, которые оптимизаторы держат в своих головах.

Уникальность текста является одним из основных предрассудков. В понимании обычного оптимизатора уникальность текста представляет собой уникальный набор слов. Для измерения уникальности набора используются специальные программы, основанные на методе шинглов. Но, если имеется ввиду искусственная семантика, подразумевается, что все тексты сайта будут аналогичными – на каждой странице будет заменяться лишь набор заданных заранее переменных (год, адрес, месяц, город и т. д.).

Многие попросту пугаются от этого! 

Ведь, как можно использовать неуникальные тексты!?

Поясним ситуацию: «Яндекс» уже давно игнорирует уникальность текстов, измеренную при помощи метода шинглов, причем это касается любой тематики, в «Google» есть, как положительные (их большинство), так и отрицательные примеры, тут играет роль тематика. Отметим, что под положительными и отрицательными примерами имеются ввиду не столько позиции (эта метрика неинформативна), сколько неполучение или получение значительных объемов трафика от поисковиков с использованием, якобы, неуникальных текстов.

Отметим еще раз: в проверке уникальности, которую обычный оптимизатор выполняет через «AdvegoPlagiatus» (любой аналог) нет никакого смысла. Правильное построение сайта и работа с поисковиком,  согласно его правилам, даст вам большие объемы трафика, даже если вы будете применять полностью скопированный контент, «шаблонный» контент с применением переменных либо комбинировать эти приемы.

Что же такое «уникальный текст» в понимании поисковых систем?

Поисковые системы уже давно научились делать очень хорошо две вещи:

  • Следить за тем, как пользователь взаимодействует с определенным документом.
  • Формировать «фактическую» выжимку на основе этого документа.

Как работает «фактическая» выжимка можно увидеть в «Яндекс.Новостях», когда документы, рассказывающие разными словами об одном и том же событии, приводятся к общему знаменателю.

В поиске эти факторы комбинируются: важно, чтобы документ решал пользовательскую проблему, и при этом, чтобы набор фактов из этого документа был уникальным.

Многие опытные оптимизаторы вообще не проверяют уникальность текстов, которые для них пишут копирайтеры. Но, в работе с авторами и редакторами, они дают четкие указание: каждое употребленное в тексте слово должно сообщать пользователю определенный важный факт, касающийся его проблемы, в поиске решения которой он и посетил эту страницу.

Ниже продемонстрировано на примерах того, что «неуникальные» тексты также привлекают хороший трафик из поисковиков – при этом, из-за этой «неуникальности» не возникают какие-либо негативные последствия.

Искусственная семантика для некоммерческих проектов

Для начала разберем реальный кейс проекта, в основе которого лежит искусственная семантика, а затем перейдем к вопросам самостоятельного создания «проекта» сайта, базирующегося на искусственной семантике, при минимальных затратах.

Кейс: Проект тематики «Отопление» с некоммерческим сезонным трафиком, 90% трафика генерируется поисковыми системами, доли «Google» и «Яндекса» примерно одинаковы. Запросы, по которым привлекается трафик, не являются геозависимыми. 3000 страниц в индексе (робот загрузил 5526, в поиске – 3053 страницы).

Все эти 3000 страниц построены на 4-х шаблонах текста, заголовков, описаний, и «h1». В шаблонах используется лишь область и город. Затраты на контент составили порядка 3000 руб. Монетизация – реклама, не только «Adsense», но и баннеры коммерческих партнеров проекта. Покупных ссылок нет.

Пик сезона, в плане спроса, приходится на конец весны, затем до октября-ноября идет плавный рост.

Sem_3

Из этого скриншота Метрики видно, что:

  • Суммарная посещаемость около 300000 посетителей меньше, чем за трехмесячный период.
  • Пиковые значения за сутки – 12000 из «Google» и 6000 из «Яндекса».
  • Отказы – немного больше 10%. Видим, что, даже с учетом шаблонного контента, пользователи активно взаимодействуют с ресурсом.
  • Время просмотра – в среднем немного превышает минуту, зависит от поисковика.

Сейчас сайт есть в индексе, суточная посещаемость в среднем составляет 500 посетителей, перед весенним сезоном начинается плавный рост. URL этого сайта в статье не будет освещаться, но мы на простых примерах разберем алгоритм создания таких ресурсов.

Как пример возьмем тематику «Бани». Довольно простая тематика, как переменная в запросах применяется большое количество географических обозначений. Допустим, что в результате мы хотим запустить сайт-агрегатор данных о саунах и банях разных регионов России. Мы не преследуем цель создать самый лучший сайт о банях, сейчас нужно просто разобраться с принципом обработки семантики.

Действовать будем по примерно такому плану:

  • Выполним парсинг и анализ семантики.
  • Согласно данным анализа, создадим в «Excel» структуру сайта.
  • Купим контент для описаний самих банных комплексов и страниц категорий.

Парсинг и анализ семантики

Воспользуемся выборками из базы, которую предлагает MOAB «SuggestPro» (выборка и дополнительные данные займут порядка 60 мегабайт), это будут все запросы, включающие слово «Бани», точная частотность которых больше 1, регион – «Россия».

Всего нашлось 282995 запросов.

Проанализируем файл с помощью инструмента «Анализ групп» программы «KeyCollector».

Видим, что в выборке очень много однотипных региональных запросов такого формата:

[бани + %еще что-то% + %регион%]

3.1.1

3.1.2

3.1.3

3.1.4

Исходя из этого, делаем вывод, что такая тематика для нас подходит (перечень регионов – это совокупность известных заранее переменных, а вот что такое «%еще что-то%» сейчас разберем).

На основе результатов анализа создадим в «Excel» структуру сайта

Прежде всего, проведем сравнение нескольких выборок по ключевым запросам, в которых есть города: «бани спб», «бани самара», «бани воронеж». Выполняя сравнение, мы должны осуществить кластеризацию – это легче всего сделать при помощи инструмента «Анализ групп» программы «KeyCollector», хотя, можно использовать и любую другую удобную методику кластеризации. При сравнивании кластеризированной выборки, мы должны определить группы интересов пользователей, которые востребованы везде, независимо от города, т. е. определить самые популярные «добавки», именно то «еще что-то», которое выше и упоминалось.

Даже поверхностный анализ позволит сформировать следующий перечень групп:

  • Бани с вениками.
  • Бани на дровах.
  • Бани со спа.
  • Бани с бассейном.
  • Бани с бочкой.
  • Общественные бани.
  • Бани римские.
  • Бани турецкие.
  • Мобильные бани.

Так мы получили этакий перечень категорий 2-го уровня. Теперь отложим эти данные, и внимательно проследим, какие слова чаще всего используются вместе с наименованием той или иной бани (случайной), то есть выявим самые стандартные добавки к формуле – «%наименование бани% + %город% + %еще что-то%».

Чтобы сделать это, воспользуемся статистически достоверным массивом запросов, в который входят только названия бань, после чего снова его кластеризируем.

Такая операция позволит определить, что наиболее часто к наименованию бани и городу добавляют такие словосочетания:

  • Официальный сайт.
  • Прайс лист, цена.
  • Фото.
  • Адрес.
  • Отзывы.
  • Часы работы.
  • Телефон.

С помощью этой информации мы будем создавать собственный каталог бань.

Теперь мы имеем всю необходимую информацию и можем переходить к созданию структуры сайта. Из этой информации можно создать файл с планом сайта, который выглядит следующим образом:

Файл: https://yadi.sk/d/3Xm21BDIotjc4

Далее разберем его более детально, разъясним, для чего мы выполняли вышеописанный анализ семантики.

Общая структура

На данной вкладке рассматривается общая структура нашего будущего сайта. Имеем несколько уровней вложенности, по которым разбиты страницы:

Sem_5

Обратите внимание на то, что есть два каталога второго уровня, которые являются дочерними по отношению к главной странице:

  • Категорийные страницы.
  • Страницы самих банных комплексов.

5.3

Воспользовавшись нехитрыми скриптами, которые есть в большинстве популярных CMS, в дальнейшем мы настроим автоматический вывод нужных банных комплексов для каждой страницы.

Особого внимания заслуживаются текстовые характеристики сайта: H1, дескрипшн и тайтл – в них используются переменные «%город%, %область%». В текстовых тегах упоминаются синонимы к слову «баня» — «сауна» и «парилка», чтобы собрать больше низкочастотного трафика по соответствующим городам:

Sem_6

Следует понимать, что эта схема содержит только ограниченное количество страниц, позволяющих схематически продемонстрировать общую структуру.

В конечном варианте будет использоваться база областей РФ (возможно и СНГ), база городов по этим областям, будет создано необходимое количество страниц.

И, наконец, переходим к самому важному – столбец «Контент»:

5.5

Слово «Текст№ххх» означает отдельный текстовый шаблон, то есть, видим, что на сайте будет применяться всего 7 текстовых шаблонов. Сами шаблоны будут содержать наши переменные: область, город, наименование бани.

Создавать слишком большие тексты не рекомендуется (в нашем случае хватит 1500-2000 символов), но, постарайтесь заказать создание шаблона хорошему профессиональному копирайтеру, может быть, в прошлом журналисту – текст должен получиться действительно интересным, увлекательным, содержащим полезную информацию.

Почему мы работаем именно с 7 шаблонами? Как видно, для каждого уровня применяется отдельный шаблон (учитывая, что отдельный уровень представляет собой как бы немного другую реальную сущность, несущую несколько иной смысл, поэтому лучше пользоваться шаблонами, максимально адаптированными отдельно под каждый уровень).

Таблица со сведениями о банях

Эта таблица содержит поля, нужные в каталоге саун и бань. Также, как пример, для одной выдуманной бани все эти параметры уже заполнены.

5.6

Итак, параметры, указанные в столбцах A-I имеются здесь не просто так:

Sem_7

Это именно те слова, как показал наш анализ, которые чаще всего используются вместе с наименованием определенной случайной бани, соответственно, мы должны ответить на каждый вопрос формата:  «%наименование бани% + %город% + %еще что-то%».

В нашем случае это говорит о том, что этот огромный каталог бань должен содержать следующую информацию для каждой бани: сайт, телефон, часы работы, фотографии и адрес. То есть, как уже выше говорилось, пользователь должен получать исчерпывающие ответы на свои вопросы, это обеспечит хороший трафик.

Где найти этот контент?

Тут масса вариантов, все зависит от ваших предпочтений: можно написать скрипт, который будет парсить некий публичный источник, или использовать базы данных организаций, которых в интернете очень много. Они содержат всю эту информацию, и сложностей с их переносом в таблицу возникнуть не должно. Скрипт придется заказать программисту, можно нанять фрилансера, это обойдется совсем недорого. А что касается баз, имеющихся в интернете, то их достаточно много, причем не все из них платные, есть и те, которые можно скачать просто так.

Столбцы «I-S» уже более усложненные.

Категоризация шестого уровня в общей таблице подразумевает создание таких страниц:

Sem_8

Для решения этой задачи мы должны выполнить такие действия:

  • Непосредственно на категорийной странице создать поле под названием «тип бани», и внести в него значение «veniki=false» или «drova=true».
  • Создать такое же поле, но уже на странице самой бани, это позволит автоматически выводить все соответствующие бани, отфильтровав их по области, городу и типу.

То есть, к примеру, вывод бань на страничке «Бани на дровах в Красноярске» автоматически будет работать с фильтром «drova=true» и «city=Krasnoyarsk».

Если с данными о городе разобрались, то категоризация второго уровня будет несколько сложнее. Тут самый оптимальный вариант – выдать фрилансеру (лучше нескольким) таблицу, в которой уже заполнены поля «A-I», чтобы они расставили значения «нет-да» по соответствующим полям.

Расходы на это будут совсем небольшими, особенно с учетом того, что сейчас фриланс является рынком покупателя, но не продавца.

Уровень 4,5,6

Самая серьезная проблема для такого рода сайтов, в основе которых лежит искусственная семантика — это создание страниц.

Имеем 90 областей + (9 категорий х 1000 городов) + еще не менее нескольких тысяч страниц, на которых будут описания банных комплексов, в итоге нужно будет создавать 4-5 тысяч страниц, а то и больше. Естественно,  этот процесс необходимо автоматизировать как можно лучше, не будете же вы вручную создавать эти страницы.

Проблему создания страниц можно решить довольно просто – под любую популярную CMS есть скрипты для загрузки страниц их «csv» или «xlsx». В данном случае одна строка будет являться одной страницей.

Теперь разберем, что происходит с нашими вкладками в плане массовой загрузки. Вкладка «Таблица с данными о банях» проблем не вызывает. Страниц будет столько, сколько у нас строк, у каждой страницы 18 полей, содержащих расширенные сведения о бане. Но, нужно поработать еще и с категорийными страницами – тут все так же, нужно только представить их в подобном построчном формате.

4 уровень — «Области»; 5 уровень — «Города»; 6 уровень — «Категории внутри города».

Количество областей и городов, представленных в таблице, ограничено, просто, чтобы понять сам процесс. Значения переменных нужно брать из столбцов, которые есть в той же таблице. Тут нужно рассмотреть столбец «Н» таблицы «уровень 6», поскольку переменная «city» имеет значение в родительском падеже, чтобы использовать его в заголовке.

Итак, можно сделать вывод, что создание информационных/некоммерческих проектов на базе искусственной семантики делится на несколько стадий:

  • Сбор семантики, определение прогнозируемых переменных в ее структуре (заправка, баня, курорт, отель, месяц, город и т. д.).
  • Формирование структуры сайта, согласно данным о часто встречаемых переменных.
  • Подготовка текстовых шаблонов под каждый уровень.
  • Подготовка текстового контента (в том числе текстовых тегов) в формате «Excel»-таблиц, в которых по уровням разбиваются переменные.
  • Замена переменных на их реальные значения в ходе обработки еще в редакторе «Excel», или уже после того, как они будут загружены в CMS. Во время генерации страницы этого делать не рекомендуется, поскольку процесс вызывает излишнюю нагрузку на базу, а на практике этот контент будет редактироваться редко, а удобство и польза от переменных небольшие.
  • Автоматизация процесса загрузки подготовленного контента в наш движок сайта.