Vanilla это мультиязычный open-source форум, поддерживающий плагины и темы оформления.
С помощью Vanilla вы можете создать простой форум, блог или даже целое сообщество!

Правильный Robots.txt для Vanilla 2
  • DrakasmitDrakasmit
    Сообщений: 438Пользователь 8 months ago
    Robots.txt нужен для того, чтобы показать поисковой системе какие страницы на сайте можно индексировать, а какие нет. Навигация ваниллы, проста для пользователя, но, к сожалению, сложна для поисковой системы.

    Движок Vanilla 2 содержит очень большое количество дублей страниц, это может черевато сказаться на ранжировании сайта в результатах выдачи, а так же сайт вообще может быть забанен за дублирования контента (или поймать такой извесный фильтр как АГС).

    Поэтому нам нужно скрыть от робота не нужные для него страницы. Чем мы сейчас и займемся. Ниже представлен файл роботс.txt в котором по моему мнению нужно было закрыть все не нужные для индексации страницы, а открыть лишь страницы обсуждений (тем)

    User-agent:*
    Disallow: /dashboard*
    Disallow: /profile*
    Disallow: /entry*
    Disallow: /vanilla*
    Disallow: /discussions*
    Disallow: /categories*
    Disallow: /post*
    Disallow: /discussion/*/$


    Проясню некоторые моменты.

    Во первых, пример выше предназначен для _всех_ поисковиков, его будут выполнять yandex, google, yahoo, bing и т.д.

    Во вторых, в нем закрыты все служебные разделы сайта, а именно: страница входа, регистрации, создания темы, теги.

    В третьих закрыты все профили участников, дабы избежать появления в них спамных ссылок.

    И в четвертых, что самое важное закрыты дубликаты тем.

    Подробнее о дубликатах тем. Ванилла позволяет использовать ЧПУ в виде транслитированных заголовков пример: vanillaforum.ru/discussion/26/kak-sdelat-navigaciyu-v-razdelah. Это конечно замечательно, но. Данная страница остается доступной по адрессу vanillaforum.ru/discussion/26/ , а вот это уже плохо, ибо на лицо полная дубликация контента на двух страницах. Поисковик может расценить это как накрутку его алгоритмов и применить санкции к сайту.

    В мною составленном robots.txt, мы ясно даем понять поисковой системе, что ему можно индексировать страницы с адрессом vanillaforum.ru/discussion/26/kak-sdelat-navigaciyu-v-razdelah, но нельзя vanillaforum.ru/discussion/26/ .

    Задается это выражением Disallow: /discussion/*/$ таким образом мы избегаем дубликатов, и оставляем в выдаче лишь одну страницу, которая содержит название темы, что положительно влияет на индексацию.

    Окей, разобрались с тем что закрыли. Но ведь у нас есть несколько поисковых систем, а в рунете вебмастера отдают предпочтение ПС Яндекс, поэтому желательно делать robots.txt для нескольких поисковых систем. Давайте это сделаем.

    После знака шарп (#) я буду давать пояснения в файле робот.тхт, для того чтобы вам было понятней почему я это делаю. Кстати в дальнейшем вы можете скопировать файл прямо с пояснениями, т.к. роботы обрабатывают знак шарп, как пояснения для других вебмастеров, и не обращают на него внимания.

    User-agent: Yandex #Составляя роботс.txt, ставим юзер-агент яндекса, всегда первым.
    Disallow: /dashboard* #закрываем служебные страницы
    Disallow: /profile* #закрываем, все что относится к профилю
    Disallow: /entry* #снова служебные (вход, рега и т.д.)
    Disallow: /vanilla* #служебное
    Disallow: /discussions* #теги и т.д., обратите внимание на букву S в конце - это не discussion
    Disallow: /categories* #скрываем категории, если они нужны вам для продвижения - оставляйте
    Disallow: /post* #служебное
    Disallow: /discussion/*/$ #дубликаты страниц
    Host: vanillaforum.ru #указываем главное зеркало, на всякий случай
    Sitemap: http://vanillaforum.ru/sitemap.index.xml #карта сайта _если_ установлен плагин для её генерации

    #Роботс для юзер агента яндекса, написан, теперь пишем для _всех_ остальных

    User-agent:* #Звездочка указывает на то, что этим правилам должны руководствоваться все роботы, не прописанные отдельно.
    Disallow: /dashboard*
    Disallow: /profile*
    Disallow: /entry*
    Disallow: /vanilla*
    Disallow: /discussions*
    Disallow: /categories*
    Disallow: /post*
    Disallow: /discussion/*/$
    Sitemap: http://vanillaforum.ru/sitemap.index.xml
    #Как видим, все тоже самое, только без параметра HOST - это специальный параметр для Яндекса.

    #Мы можем исключить, либо уменьшеть индексацию сайта нежелаемыми роботами (которые в ответ не принесут практически никакого трафика). Я выключаю индексацию для Bing и Yahoo

    User-agent: MSNBot #Bing
    Crawl-delay: 120
    Disallow: /

    User-agent: Slurp #Yahoo
    Crawl-delay: 120
    Disallow: /

    #Файл robots.txt для Vanilla 2 составил Quadrosmit (http://vanillaforum.ru)


    Вот и всё :) Теперь нам необходимо залить этот файлик в корневой каталог сайта, что бы он был доступен по адресу http://vanillaforum.ru/robots.txt . Поисковые системы будут правильно индексировать ваш сайт. Теперь вы можете не боятся за санкции с их стороны за дублирование контента.

    Скачать чистый файл можно отсюда, предварительно подредактируйте урлы под свой сайт и расскоментируйте строку где упоминается о карте сайта, если плагин установлен.
  • Дмитрий КорнетовДмитрий Корнетов
    Сообщений: 21Пользователь
    При навигации к странице прибавляется /p2
    Первая страница становится /p1

    Вот как тут быть, страницы то уже без этой прибавок нету, а она будет проиндексирована.
  • Дмитрий КорнетовДмитрий Корнетов
    Сообщений: 21Пользователь
    При навигации к странице прибавляется /p2
    Первая страница становится /p1

    Вот как тут быть, страницы то первой уже без этой прибавки нету, а она будет проиндексирована.


  • Дмитрий КорнетовДмитрий Корнетов
    Сообщений: 21Пользователь
    Всё, отбой тревоги)
    Оказывается надо смотреть незалогиненым.
    Но всё равно думаю страницы /p1 - нужно закрыть в robots.
  • DrakasmitDrakasmit
    Сообщений: 438Пользователь
    @Дмитрий Корнетов Зачем? Они не дублируются же
  • Дмитрий КорнетовДмитрий Корнетов
    Сообщений: 21Пользователь
    это щас коментов мало, нету этой страницы. Навигация появится в этой теме и вот вам дубль будет сразу с /p1
  • DrakasmitDrakasmit
    Сообщений: 438Пользователь
    @Дмитрий Корнетов Да, что-то я не проснулся ещё. Гугл ест /p1 как основную страницу, при этом / в индекс не включает. С Яндексом для меня сейчас ситуация вообще не понятна, он живет своей жизнью. Вообще ванилла в плане ЧПУ подкачала. Страницы дублируются по многим адресам


    http://vanillaforum.ru/forums/discussion/27/pravilnyy-robots.txt-dlya-vanilla-2/
    http://vanillaforum.ru/forums/discussion/27/pravilnyy-robots.txt-dlya-vanilla-2
    http://vanillaforum.ru/forums/discussion/27/pravilnyy-robots.txt-dlya-vanilla-2/p1
    http://vanillaforum.ru/forums/discussion/27/
    http://vanillaforum.ru/forums/discussion/comment/678
    http://vanillaforum.ru/forums/discussion/comment/678/


    Мой роботс яндексом обрабатывается так:

    http://vanillaforum.ru/forums/discussion/27/pravilnyy-robots.txt-dlya-vanilla-2/ запрещен правилом /forums/discussion/*/$
    http://vanillaforum.ru/forums/discussion/27/pravilnyy-robots.txt-dlya-vanilla-2 разрешен
    http://vanillaforum.ru/forums/discussion/27/pravilnyy-robots.txt-dlya-vanilla-2/p1 разрешен
    http://vanillaforum.ru/forums/discussion/27/ запрещен правилом /forums/discussion/*/$
    http://vanillaforum.ru/forums/discussion/comment/678 разрешен
    http://vanillaforum.ru/forums/discussion/comment/678/ запрещен правилом /forums/discussion/*/$


    + Яндекс непонятно откуда взял значение rel="canonical" и похерил еще половину страниц с формулировкой *документ не является каноническим*. В итоге - в гугле у данного форума 1к стр + в индексе, в яндексе 138, из загруженных роботом 1556.
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    Тут была речь о плагине Sitemap. Он у кого-нибудь заработал?
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    Опять сам себе отвечу :) Ответ, как сделать его рабочим здесь - http://vanillaforums.org/discussion/17008/sitemaps-relatively-easy-to-setup-follow-these-instructions
  • DrakasmitDrakasmit
    Сообщений: 438Пользователь
    @Geleosan спасибо, нужно будет попробовать.
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    Сделал выжимку из этой темы на русском http://forum.life-trip.ru/discussion/5/plagin-sitemap-dlya-vanilla#Item_1

    Форум, мой конечно, только оформляется, но тем не менее прочитать можно.
  • avertavert
    Сообщений: 319Администратор
    Я не нашел решения по указанной ссылке. Там где предложено пройти на http://forum.life-trip.ru/plugin/sitemaps/build открывается белая страница. А где по ссылке http://forum.life-trip.ru/sitemap.index.xml да вобщем то, то же не результат.
    Хотя бы вот что-то вроде такого делал бы плагин
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    Все открывается, как и должно. Я же там все рассказал. Первая ссылка, для генерации файла, если он не создался, по идее этого делать не надо.
    Вторая ссылка - ведет на сайтмэп, указывающий на другой сайтмэп, уже полноценный.

    Я все добавил в панель гугл, и у меня все работает.

    А ваш сайтмэп чем сделан?
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    Кстати, а кто-нибудь может рассказать, почему некоторые ссылки на темы имеют окончание #Item_14, а некоторые нет?
  • DrakasmitDrakasmit
    Сообщений: 438Пользователь
    @Geleosan если вы читали тему ранее, то по идее вас должно перекинуть на последнее сообщение. если нет - то на первое и дается ссылка без якоря
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    А, понял. И, соответственно эти items меняют свои номера, в зависимости от последнего прочитанного сообщения.

    Поисковики эти #ссылки не видят, да и вроде относятся к ним нормально вполне.
  • DrakasmitDrakasmit
    Сообщений: 438Пользователь
    @Geleosan гугл учитывает якоря, яндекс пока что нет.
  • GeleosanGeleosan
    Сообщений: 70Пользователь
    Хм, а как он их учитывает? По идее склеивать должен, иначе совсем не логично.

    И еще, ведь робот не залогинен, он не должен будет якоря видеть?
  • avertavert
    Сообщений: 319Администратор
    Geleosan said:


    А ваш сайтмэп чем сделан?


    Какой то генератор онлайновый. Сейчас не помню уже. Хотя, может я и программно делал дома. Я посмотрю внимательнее, отпишусь потом.

  • DrakasmitDrakasmit
    Сообщений: 438Пользователь
    @Geleosan да, именно так он их и учитывает. дубли страниц конечно не создает. просто в сниппетах может давать ссылку которая является якорем, если у вас на сайте очень длинная страница и присутствует оглавление в виде ссылок с якорями.

    image

    вот так обрабатывается якорь "История" в стетье про "Автомобиль", например.

    я вот так юзаю якоря.