Головна > База знань > Безпека > Причини навантаження на сервер з боку пошукових систем

Причини навантаження на сервер з боку пошукових систем

Часто причиною високого навантаження на сервері можуть бути пошукові системи.

 

 

 

Справа в тому, що пошукові системи при індексації вашого облікового запису надсилають одночасно велику кількість запитів вашому сайту,

в результаті цього так звані основні скрипти Вашого сайту просто напросто зависають.

 

 

 

Для вирішення проблеми з запитами до сайту, в першу чергу необхідно визначити скільки запитів до сайту було виконано пошуковими системами.

 

 

 

 

Для цього вам потрібно зайти на сервер використовуючи SSH доступ (якщо у Вас є root доступ до сервера) і виконати наступні команди:

 

  • для Yandex:

          grep 13/Apr/20013 /usr/local/apache/domlogs/example.org | grep Yandex | wc -l

 

  • для Google:

    grep 13/Apr/2013/usr/local/apache/domlogs/example.org | grep www.google.com/bot.html | wc -l



 

Замість Yandex і www.google.com/bot.html можна використовувати ідентифікатори інших пошукових систем, дізнатися які можна, звернувшись в службу підтримки необхідної пошукової системи або вивчивши лог доступу.

 

 

 

example.org - ім'я домену, розташованого на вашому обліковому записі і про який ви бажаєте отримати інформацію, 13 / Apr / 20013 - дата, за яку Ви хочете отримати інформацію за запитами сайту.

 

 

 

При бажанні можна подивитися статистику по виконанню пошукових запитів за певний період часу, якщо логи доступу не обнулялися з боку сервера.

 

 

 

Крім того, Ви можете налаштувати архівацію логів доступу в панелі управління cPanel.

 

При цьому логи будуть архівувати в Вашу домашню директорію і в будь-який момент Ви зможете проаналізувати їх.

 


 

Для створення і скачування логів Вам потрібно буде перейти в розділ Cpanel Raw Access Log і вибрати необхідні Вам опції

 

на вибір:

 

 

1) Archive logs in your home directory at the end of each stats run[ [every 24 hour(s)~]]

2) Remove the previous month's archived logs from your home directory at the end of each month

 

Таким чином Ваші журнали логів будуть архівуватись кожні 24 години і після цього зміни будуть зберігатися в окремий

 

файл з логами в Вашу домашню директорію.

 


Pис. Приклад скачування лога на локальний комп'ютер

 

 

 

 

 

 

 

Після скачування лога на свій комп'ютер ви можете виконати детальний аналіз підключень до сайту в визначений час. Лог для Вашого домену буде виглядати наступним чином після скачування:

 

66.249.75.176 - - [12/Apr/2013:06:47:08 +0000] "GET /robots.txt HTTP/1.1" 200 404 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

66.249.75.176 - - [12/Apr/2013:06:47:08 +0000] "GET /femme-sweat-capuche-veste-abercrombie-fitch-facile-%C3%A0-assortir-swea208sa-p-149.html HTTP/1.1" 404 1081 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

77.88.42.26 - - [12/Apr/2013:06:47:21 +0000] "GET / HTTP/1.1" 200 111 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

78.178.230.219 - - [12/Apr/2013:06:48:06 +0000] "GET /wp-admin/ HTTP/1.1" 404 1027 "-" "Mozilla/5.0 (Windows NT 6.1; rv:15.0) Gecko/20120716 Firefox/15.0a2"

78.178.230.219 - - [12/Apr/2013:06:48:07 +0000] "GET /wordpress/wp-admin/ HTTP/1.1" 404 1035 "-" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.15 (KHTML, like Gecko) Chrome/24.0.1295.0 Safari/537.15"

78.178.230.219 - - [12/Apr/2013:06:48:07 +0000] "GET /blog/wp-admin/ HTTP/1.1" 404 1030 "-" "Mozilla/5.0 (Windows; U; MSIE 9.0; WIndows NT 9.0; en-US))"

142.4.126.225 - - [12/Apr/2013:06:51:02 +0000] "GET /ugg/ HTTP/1.0" 404 2019 "http://www.uggbootsukonline.info/ugg/#comment-1475" "Mozilla/5.0 (Windows NT 6.1; rv:17.0) Gecko/17.0 Firefox/17.0"

142.4.126.225 - - [12/Apr/2013:06:51:02 +0000] "GET / HTTP/1.0" 200 111 "http://www.uggbootsukonline.info/" "Mozilla/5.0 (Windows NT 6.1; rv:17.0) Gecko/17.0 Firefox/17.0"



Якщо число пошукових запитів перевищує 1000-1500 в результаті перевірки логів, користувачеві однозначно необхідно вжити необхідних заходів, щоб знизити навантаження на сервер. В іншому випадку Ви можете отримати повідомлення від технічної підтримки за перевищення навантаження на сервері.

 

 

 

Серед основних заходів щодо зниження навантаження від пошукових запитів можна виділити наступні:

 

 

 

 

1) Створення файлу robots.txt в папці вашого сайту public_html і прописування в нього наступних параметрів:



 

 

  • User-agent: Yandex

  • Crawl-delay: 10

  • User-agent: Google

  • Crawl-delay: 10

 

Бажано відразу задавати параметри для декількох типів пошукових систем, як в нашому випадку для Yandex і Google.

 

 

 

 

 

2) Заборона індексації непотрібних каталогів, наприклад, для каталогів з картинками, адмін частини сайту і т.д:

 

 

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

 

3) Обмеження індексації та для інших пошукових систем. Більш детально про правила файлу robots.txt можна дізнатися  за наступним посиланням

 

4) Створення карти сайту (sitemap), яка повинна включати в себе додаткову інформацію про сторінки сайту, які підлягають індексації.

Sitemap надає інформацію пошуковій системі щодо сторінок сайту, які вимагають індексації.

 

Крім того, за допомогою Sitemap Ви можете дізнатися індексація яких сторінок найбільш важлива для Вашого сайту.

 

Карта сайту створюється для сайту автоматично при установки готової CMS системи для Вашого сайту. Після установки CMS просто потрібно активувати карту сайту і створити спеціальний для неї файл Sitemap.

 

 

У разі якщо Ваша система управління контентом не підтримує карту сайту, можна використовувати програми для Online генерації sitemap, наприклад SiteMap Generator або Mysitemapgenerator .

В такому випадку в програмі онлайн генератора карти сайту просто потрібно вказати створену карту сайту для пошукових систем або додати в robots.txt файл наступну конфігурацію:

 

  • User-agent: *

  • Allow: /

  • Sitemap:



Якщо у Вас не виходить самостійно визначити причину навантаження на сервер з боку Вашого сайту, радимо звернутися в технічну підтримку нашої компанії.

 


Також прочитайте