Бортовой журнал Ктулху

Правильное составление файла sitemap

Файл sitemap.xml, так же, как и обычная карта сайта представляет из себя набор страниц, оформленных в XML-теги. С помощью данного файла, поисковые системы понимают, какие страницы вашего сайта следует индексировать в первую очередь.

Обычная HTML карта сайта:

ad0a5bf1ef558ff32e3a2ada4abd30d9 1

http://www.apple.com/ru/sitemap/

Карта сайта в формате XML:

sitemap

http://www.apple.com/sitemap.xml

У каждого варианта есть свои плюсы и минусы. Ключевое преимущество карты сайта в формате XML — исключение возможности размытия статического веса страниц внутри сайта. В этой статье будет написано как составить корректный файл Sitemap.xml. 

Директивы файла sitemap.xml

Существуют 3 обязательных директивы, которые должны быть заполнены в любом случае, это теги:

  • <url>
  • <urlset>
  • <loc>

А также 3 необязательных тега:

  • <lastmod>
  • <changefreq>
  • <priority>

 

 

Вот памятка по расшифровке каждого тега из официального сайта

Атрибут

Статус

Описание

<urlset>

обязательный

Инкапсулирует этот файл и указывает стандарт текущего протокола.

<url>

обязательный

Родительский тег для каждого URL-адреса. Остальные теги подчинены этому тегу.

<loc>

обязательный

Сам URL-адрес страницы. Всегда начинается с префикса (например, HTTP) и заканчиваться косой чертой (если сервер вашего сайта требует этого).

Внимание: длина URL-адреса не должна превышать 2048 символов.

<lastmod>

необязательный

Дата последнего изменения файла. Указывается строго в формате W3C Datetime. Он позволяет при необходимости не учитывать сегмент времени и использовать формат ГГГГ-ММ-ДД.

<changefreq>

необязательный

Позволяет указать как часто меняется информация на странице.

Это значение устанавливается приблизительно.

Допустимые значения:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

 

Если страница изменяется каждый раз, когда ее открывают — используем значение «always» (всегда). Если это архивная страница — ставьте never (никогда).

Учтите, что этот атрибут служит для поискового робота подсказкой, а не правилом. Поэтому зависимости между ним и реальной частотой посещения страницы поисковым роботом нелинейная.

<priority>

необязательный

Позволяет указать приоритет одних страниц вашего сайта перед другими.

Диапазон значений — от 0,0 до 1,0.

По умолчанию каждой странице отдается приоритет 0,5.

Значение атрибута работает для сравнения приоритета страниц только внутри вашего сайта. То есть оно не влияет на сравнение вашего сайта с сайтами конкурентами в поисковой сети. Более того, выставлять всем страницам максимальный приоритет тоже бессмысленно. Потому что тогда значения будут одинаковыми для робота и атрибут просто не сработает. Так что не ищите лазеек, а указывайте объективные приоритеты для страниц.

Составление файла sitemap.xml

 

Составлять карту сайта можно 3 способами:

  • Вручную;
  • Автоматически, с помощью специальных сервисов;
  • Автоматически, с помощью готовых решений в виде плагинов к CMS и т.п.

Процесс приготовления карты сайта следующий:

  • Составляем карту сайта одним из способов, перечисленных выше;
  • Проверяем на валидность с помощью сервисов поисковых систем (https://webmaster.yandex.ru/sitemaptest.xml);
  • Размещаем файл на сайте;
  • Указываем путь к карте сайта для поисковых роботов в файле robots.txt;
  • Указываем Sitemap в панели вебмастеров Яндекс и Google.

Итак, как составлять файл карты сайта? Разберем пример составления файла вручную. Если вы хотите добавить в карту сайта 5 страниц вашего сайта:

Вот так должна выглядеть карта сайта в формате XML:

<urlset>

<url>

<loc>http://site.ru/url-o_kompanii/</loc>

</url>

<url>

<loc>http://site.ru/url-uslugi/</loc>

</url>

<url>

<loc>http://site.ru/url-produkty/</loc>

</url>

<url>

<loc>http://site.ru/url-dostavka/</loc>

</url>

<url>

<loc>http://site.ru/url-kontakty/</loc>

</url>

</urlset>

При необходимости можно добавить необязательные теги из таблицы выше. Дополнительные теги прописываются в контейнере , после указания URL-адреса страницы в теге . Например:

<?xml version="1.0" encoding="UTF-8"?>

 

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

 

<url>

 

<loc>http://site.ru/</loc>

 

<lastmod>2005-01-01</lastmod>

 

<changefreq>monthly</changefreq>

 

<priority>0.8</priority>

 

</url>

 

</urlset>

Приведенный выше код, указывает поисковой системе, что страница http://site.ru/ в последний раз изменилась 1 января 2005 года. Обновляется с частотой раз в месяц. И приоритет у данной страницы 0.8 (максимально возможный 1). Рекомендую пользоваться текстовыми редакторами, которые поддерживают синтаксис языка XML, например, Notepadqq. Вот так выглядит XML-код в данном редакторе:

5b852afb11d06729bb832304f4695a87 1

Сервисы для генерации Sitemap

http://www.mysitemapgenerator.com/

http://sitemapgenerator.ru/

https://www.xml-sitemaps.com/

Приблизительно работа с этим сервисом выглядит так:

304ed06b6f69502eeb50c82c0e037233 1

Плагины для CMS

Валидность

В отличие от файла robots.txt, файл sitemap.xml может располагаться в любом месте вашего сайта, и это необязательно должен быть корень сайта, можно и во вложенных папках.

Кроме того, файлов Sitemap может быть несколько. В таком случае необходимо указывать в robots и вебмастерах полный адрес ко всем файлам Sitemap.

В файле robots.txt (подробная инструкция по составлению) в директиве Sitemap пропишите полный адрес к файлу.

Например добавить в конец файла такую запись:

Sitemap: http://my.site.ru/stemap.xml

Группировка файлов Sitemap

В случае превышения лимита в 50000 URL-адресов, нужно использовать вложенную структуру и создать группу из нескольких Sitemap. То есть создавать карты сайта в карте сайта.

Для обычного сайта (не крупного портала или интернет-магазина) такой объем страниц редкость, поэтому группировку Sitemap большинство SEO-специалистов используют для удобства, например, для группировки страниц товаров или разделов. Синтаксис выглядит следующим образом:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://site.ru/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://site.ru/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>
</sitemapindex>
 

Определение XML-тегов:

Атрибут

 

Описание

<sitemapindex>

обязательный

Инкапсулирует информацию о всех файлах Sitemap в этом файле.

<sitemap>

обязательный

Инкапсулирует информацию об отдельном файле Sitemap.

<loc>

обязательный

Указывает местоположение файла Sitemap.

<lastmod>

необязательно

Указывает время изменения соответствующего файла Sitemap. Робот использует эту информацию, чтобы понять в каких файлах Sitemap произошли изменения. Косвенно, этот тег позволяет роботу быстрее обнаружить новые страницы сайта.

Таким образом составляется сгруппированная карта сайта. Все остальные процедуры те же, что описаны выше. Не забываем указывать в файле robots.txt, в директиве Sitemap, корректную ссылку на ваш файл. Как это реализовано на практике можно посмотреть в интернет-магазине «Ozon» http://www.ozon.ru/SitemapIndex.xml

Sitemap для изображений

Для привлечения дополнительного трафика из поисковых систем (возможно не совсем конверсионного) вы можете составить дополнительный Sitemap для картинок.

Синтаксис для картиночной карты сайта выглядит так:

 

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:image="http://www.google.com/schemas/sitemap-image/1.1">
<url>
<loc>http://example.com/primer.html</loc>
<image:image>
<image:loc>http://example.com/kartinka.jpg</image:loc>
</image:image>
<image:image>
<image:loc>http://example.com/photo.jpg</image:loc>
</image:image>
</url>
</urlset>

Тег

Обязательно?

Описание

<image:image>

Да

Содержит всю информацию об одном изображении. Каждый URL (тег <loc>) может включать до 1000 тегов <image:image>.

<image:loc>

Да

URL изображения.

В отдельных случаях домен URL изображения может отличаться от домена, используемого основным сайтом. Если оба домена подтверждены в Search Console, проблем при этом не возникнет. Но если картинки размещены с помощью системы управления контентом, например, сервиса Google Сайты, вам необходимо подтвердить сайт хостинга в Search Console. Кроме того, файл robots.txt не должен запрещать сканирование содержания, которое необходимо индексировать.

<image:caption>

Нет

Подпись к изображению.

<image:geo_location>

Нет

Место съемки. Например, <image:geo_location>Поронайск, о. Сахалин</image:geo_location>.

<image:title>

Нет

Название изображения.

<image:license>

Нет

URL лицензии изображения.

Оригинал статьи