Файл sitemap.xml, так же, как и обычная карта сайта представляет из себя набор страниц, оформленных в XML-теги. С помощью данного файла, поисковые системы понимают, какие страницы вашего сайта следует индексировать в первую очередь.
Обычная HTML карта сайта:
http://www.apple.com/ru/sitemap/
Карта сайта в формате XML:
http://www.apple.com/sitemap.xml
У каждого варианта есть свои плюсы и минусы. Ключевое преимущество карты сайта в формате XML — исключение возможности размытия статического веса страниц внутри сайта. В этой статье будет написано как составить корректный файл Sitemap.xml.
Директивы файла sitemap.xml
Существуют 3 обязательных директивы, которые должны быть заполнены в любом случае, это теги:
- <url>
- <urlset>
- <loc>
А также 3 необязательных тега:
- <lastmod>
- <changefreq>
- <priority>
Вот памятка по расшифровке каждого тега из официального сайта
Атрибут | Статус | Описание |
обязательный | Инкапсулирует этот файл и указывает стандарт текущего протокола. | |
обязательный | Родительский тег для каждого URL-адреса. Остальные теги подчинены этому тегу. | |
обязательный | Сам URL-адрес страницы. Всегда начинается с префикса (например, HTTP) и заканчиваться косой чертой (если сервер вашего сайта требует этого). Внимание: длина URL-адреса не должна превышать 2048 символов. | |
необязательный | Дата последнего изменения файла. Указывается строго в формате W3C Datetime. Он позволяет при необходимости не учитывать сегмент времени и использовать формат ГГГГ-ММ-ДД. | |
необязательный | Позволяет указать как часто меняется информация на странице. Это значение устанавливается приблизительно. Допустимые значения:
Если страница изменяется каждый раз, когда ее открывают — используем значение «always» (всегда). Если это архивная страница — ставьте never (никогда). Учтите, что этот атрибут служит для поискового робота подсказкой, а не правилом. Поэтому зависимости между ним и реальной частотой посещения страницы поисковым роботом нелинейная. | |
необязательный | Позволяет указать приоритет одних страниц вашего сайта перед другими. Диапазон значений — от 0,0 до 1,0. По умолчанию каждой странице отдается приоритет 0,5. Значение атрибута работает для сравнения приоритета страниц только внутри вашего сайта. То есть оно не влияет на сравнение вашего сайта с сайтами конкурентами в поисковой сети. Более того, выставлять всем страницам максимальный приоритет тоже бессмысленно. Потому что тогда значения будут одинаковыми для робота и атрибут просто не сработает. Так что не ищите лазеек, а указывайте объективные приоритеты для страниц. |
Составление файла sitemap.xml
Составлять карту сайта можно 3 способами:
- Вручную;
- Автоматически, с помощью специальных сервисов;
- Автоматически, с помощью готовых решений в виде плагинов к CMS и т.п.
Процесс приготовления карты сайта следующий:
- Составляем карту сайта одним из способов, перечисленных выше;
- Проверяем на валидность с помощью сервисов поисковых систем (https://webmaster.yandex.ru/sitemaptest.xml);
- Размещаем файл на сайте;
- Указываем путь к карте сайта для поисковых роботов в файле robots.txt;
- Указываем Sitemap в панели вебмастеров Яндекс и Google.
Итак, как составлять файл карты сайта? Разберем пример составления файла вручную. Если вы хотите добавить в карту сайта 5 страниц вашего сайта:
- http://site.ru/url-o_kompanii/
- http://site.ru/url-uslugi/
- http://site.ru/url-produkty/
- http://site.ru/url-dostavka/
- http://site.ru/url-kontakty/
Вот так должна выглядеть карта сайта в формате XML:
<urlset> <url> <loc>http://site.ru/url-o_kompanii/</loc> </url> <url> <loc>http://site.ru/url-uslugi/</loc> </url> <url> <loc>http://site.ru/url-produkty/</loc> </url> <url> <loc>http://site.ru/url-dostavka/</loc> </url> <url> <loc>http://site.ru/url-kontakty/</loc> </url> </urlset> |
При необходимости можно добавить необязательные теги из таблицы выше. Дополнительные теги прописываются в контейнере , после указания URL-адреса страницы в теге . Например:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://site.ru/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset> |
Приведенный выше код, указывает поисковой системе, что страница http://site.ru/ в последний раз изменилась 1 января 2005 года. Обновляется с частотой раз в месяц. И приоритет у данной страницы 0.8 (максимально возможный 1). Рекомендую пользоваться текстовыми редакторами, которые поддерживают синтаксис языка XML, например, Notepadqq. Вот так выглядит XML-код в данном редакторе:
Сервисы для генерации Sitemap
http://www.mysitemapgenerator.com/
Приблизительно работа с этим сервисом выглядит так:
Плагины для CMS
Валидность
В отличие от файла robots.txt, файл sitemap.xml может располагаться в любом месте вашего сайта, и это необязательно должен быть корень сайта, можно и во вложенных папках.
Кроме того, файлов Sitemap может быть несколько. В таком случае необходимо указывать в robots и вебмастерах полный адрес ко всем файлам Sitemap.
В файле robots.txt (подробная инструкция по составлению) в директиве Sitemap пропишите полный адрес к файлу.
Например добавить в конец файла такую запись:
Группировка файлов Sitemap
В случае превышения лимита в 50000 URL-адресов, нужно использовать вложенную структуру и создать группу из нескольких Sitemap. То есть создавать карты сайта в карте сайта.
Для обычного сайта (не крупного портала или интернет-магазина) такой объем страниц редкость, поэтому группировку Sitemap большинство SEO-специалистов используют для удобства, например, для группировки страниц товаров или разделов. Синтаксис выглядит следующим образом:
Определение XML-тегов:
Атрибут | Описание | |
обязательный | Инкапсулирует информацию о всех файлах Sitemap в этом файле. | |
обязательный | Инкапсулирует информацию об отдельном файле Sitemap. | |
обязательный | Указывает местоположение файла Sitemap. | |
необязательно | Указывает время изменения соответствующего файла Sitemap. Робот использует эту информацию, чтобы понять в каких файлах Sitemap произошли изменения. Косвенно, этот тег позволяет роботу быстрее обнаружить новые страницы сайта. |
Таким образом составляется сгруппированная карта сайта. Все остальные процедуры те же, что описаны выше. Не забываем указывать в файле robots.txt, в директиве Sitemap, корректную ссылку на ваш файл. Как это реализовано на практике можно посмотреть в интернет-магазине «Ozon» http://www.ozon.ru/SitemapIndex.xml
Sitemap для изображений
Для привлечения дополнительного трафика из поисковых систем (возможно не совсем конверсионного) вы можете составить дополнительный Sitemap для картинок.
Синтаксис для картиночной карты сайта выглядит так:
Тег | Обязательно? | Описание |
| Да | Содержит всю информацию об одном изображении. Каждый URL (тег |
| Да | URL изображения. В отдельных случаях домен URL изображения может отличаться от домена, используемого основным сайтом. Если оба домена подтверждены в Search Console, проблем при этом не возникнет. Но если картинки размещены с помощью системы управления контентом, например, сервиса Google Сайты, вам необходимо подтвердить сайт хостинга в Search Console. Кроме того, файл robots.txt не должен запрещать сканирование содержания, которое необходимо индексировать. |
| Нет | Подпись к изображению. |
| Нет | Место съемки. Например, |
| Нет | Название изображения. |
| Нет | URL лицензии изображения. |