Главная / Технический аудит / Сканирование больших сайтов на наличие ошибок
skaniruem-bolshoy-ob'em-informatsii-na-sayte

Сканирование больших сайтов на наличие ошибок

Поддерживать хорошее состояние сайта крайне важно для общего развития бизнеса. Ведь вы не знаете какие ошибки подкарауливают ваших посетителей на сайте. А их может быть очень много.  Конечно основные и самые значимые ошибки вам всегда подскажет Google Webmasters Tools, или Яндекс.Вебмастер. Но они не всемогущие и могут пропустить множества вариантов ошибок. Достаточно раз в три месяца проводить полный технический аудит, чтобы быть спокойным за сайт. Но что делать, если ваш сайт насчитывает большое количество страниц? В интернете есть определенное количество программ и сервисов по сканированию сайтов, и в этой статье мы рассмотрим самые популярные методы и алгоритмы действий для сбора информации. Также расскажу про небольшой лайфхак - Как сделать анализ большого сайта абсолютно бесплатно. Но обо всем по порядку. Зачем нужны данные всех страниц? Для того, чтобы увидеть все ошибки сайта такие как: дубли, серверные ошибки, отсутствие важных тегов в тексте или в картинках и многое другое. Некоторые ошибки сайта мешают в продвижении, например если у вас есть полные дубли страниц, вам нужно выбрать которая из них главнее, иначе это сделает Поисковик за вас, и не всегда ту, которую вы хотели. Есть платные варианты сканирования Big Data по техническим параметрам страниц: Первый вариант - www.botify.com Хороший сервис, который быстро сканирует ваш сайт и дает полный анализ страниц по 112 пунктам. Это очень много и очень полезно, но тут есть большая жирная галочка, которую мало кто поставит: цена. Цены у них довольно таки кусающиеся Botify Our Pricing SEO Crawler and Log Analyzer Google Chrome Сканирование больших сайтов на наличие ошибок 5 млн страниц за 419 Евро. или 10 млн страниц за 899 Евро в месяц Но и возможностей тут столько, что вы не найдете нигде. Этот сервис для толсто-сайтов и толстосумов. Во время таких параличных подвижек с долларом, он нам не подходит. Тем более, что ценники у них в Евро. Второй вариант - www.deepcrawl.com Чуть поменьше, чуть по дешевле тарифы, чуть опять платно. Pricing DeepCrawl Website Crawler Google Chrome Сканирование больших сайтов на наличие ошибок До 100 000 страниц - 80$, и по возрастанию. DeepCrawl даже дороже, чем прошлый сервис, но у него есть более дешевые первоначальные тарифы. Сервис тоже очень хороший, но мы же любим халяву, и не готовы расставаться с такой стоимостью за какой-то анализ. Поехали дальше. А дальше будет халява.

Бесплатные способы сканирования больших данных

Есть замечательный софт от Netpeak - Netpeak Spider, который совершенно бесплатен. Netpeak Spider     besplatnaya SEO programma dlya skanirovaniya i analiza sayta s pomoshhyu sobstvennogo robota Google Chrome Сканирование больших сайтов на наличие ошибок Его вполне достаточно для поверхностного анализа сайта, он подскажет важные ошибки, но вот не задача - это программа для компьютера и ее глубина сканирования ограничена мощностью вашего ПК. Но есть замечательный способ, который решает абсолютно любой вопрос с глубиной и количеством страниц сайта: Сканируйте по разделам Вы не сможете за один раз отсканировать весь сайт на 100 000 страниц, но если разобьете его на разделы, и по очереди будете их сканировать, вы получите все данные. Вот для примера: kak skanirovat bolshoy sayt s pomoshhyu spider netpeak Сканирование больших сайтов на наличие ошибок На сайте Rozetka более 1 млн страниц. Даже разделы у него большие, если так, то берем подраздел и сканируем.
  1. Выбираем "Типа сканирования"
  2. Вставляем в URL ссылку на раздел, который хотите отсканировать.
Получаете информацию со всех разделов, и объединяете все ошибки в один xls. В итоге у вас на руках вся информация сайта. Хотя это может занять много времени, если разделов много и страниц много, но все же - это бесплатно. Условно-бесплатный метод Есть такая условно-бесплатная программа Screaming Frog SEO Spider. Ну как условно-бесплатная: 77a7ff2532630d7cb51d559ca10bdeac Сканирование больших сайтов на наличие ошибок Ну вы поняли. В общем, программа, Screaming Frog SEO Spider, которая очень популярна в мире: Screaming Frog SEO Spider Сканирование больших сайтов на наличие ошибок Умеет многое, очень полезна и информативна. Но опять косяк, чем слабее у вас компьютер, тем меньше вы сможете достать страниц с сайта. Если даже вы и отсканировали больше 20 000 страниц, не всегда она сможет сохранить проект, и тем более сделать выгрузку данных. Ну программа есть программа, она не может кушать бесконечное количество оперативной памяти. Есть один способ увеличить объем оперативной памяти для программы: DProgram Files x86Screaming Frog SEO Spider3ScreamingFrogSEOSpider.l4j.ini Notepad Сканирование больших сайтов на наличие ошибок Зайдите в папку расположения программы и откройте файл ScreamingFrogSEOSpider.l4j.ini и увеличьте объем потребляемой оперативки. По стандарту программа не "кушает" больше 512Mb. Вы можете ее увеличить, достаточно просто поменять ее по такому принципу, в зависимости от кол-ва памяти, которое вы можете выделить: 1GB: -Xmx1024M 2GB: -Xmx2048M 4GB: -Xmx4g 8GB: -Xmx8g 16GB: -Xmx16g Этим вы значительно увеличите мощность и количество страниц для сканирования. Но если и это не помогает, то на ум приходит мега совет, который банальный до беспредела: Сканируйте по разделам Достаточно задать раздел в функции IncludeScreaming Frog SEO Spider 5.1     Spider Mode Сканирование больших сайтов на наличие ошибок И в новом окне добавить url раздела, который хотите отсканировать: 234 Сканирование больших сайтов на наличие ошибок Потом опять же, собирайте данные в один XLS и весь сайт будет у вас на ладони. Вместе с include вы можете использовать другую функцию exclude - она запрещает сканировать указанные URL. Например если у вас большой один подраздел, а другие подразделы маленькие, просто запретите сканирование большого, чтобы закончить анализ Всего раздела. Надеюсь эти советы помогут вам с Big Data. Спасибо за внимание, с вами был ленивый Staurus.

3 комментария

  1. Виталий Тихомиров

    Netpeak Spider рулит !!!

  2. Влияние вышеперечисленных проблем имеет наибольшее значение для старых и больших сайтов. Побочные эффекты миграций, ребрендинга, изменения структуры URL и интернационализации с течением времени усугубляются. К счастью, затраты на исправление этих проблем нужны небольшие, в то время как эффект может быть значительным.

  1. Pingback: Сравнительный анализ 15-ти SEO краулеров интернета — Staurus.net

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *