آشنایی با گزارش crawl stats سرچ کنسول

⏱زمان مطالعه: 5 دقیقه

آیا میدانید آخرین باری که بات گوگل به سایت شما request داده است کی بوده و با چه پاسخی مواجه شده است؟ کدام صفحه آخرین بار crawl شده است؟ اگر می‌خواهید پاسخ به این سؤال را بدانید باید به سراغ گزارش crawl stats سرچ کنسول بروید. در ادامه به معرفی این بخش مهم اما پنهان می‌پردازیم.

Crawl Stats چیست؟

این بخش که در قسمت Setting سرچ کنسول قرار دارد؛ اطلاعاتی درباره وضعیت سایت در مقابل درخواست‌های ربات گوگل ارائه می‌دهد.

گزارش crawl stats

در این بخش دانستن چند نکته ضروری است:

  1. اگر در Property دامین اصلی هستید در گزارش‌ها می‌توانید گزارش مربوط به ساب‌دامین‌ها را هم مشاهده کنید؛ اما اگر در Property ساب‌دامین هستید، گزارش URL های مربوط به سایر ساب‌دامین‌ها قابل نمایش نیست.
  2. اگر از منابعی مربوط به سایر دامین‌ها در صفحات خود استفاده کرده‌اید گزارش خزش آن‌ها را در این بخش مشاهده نخواهید کرد.
  3. این بخش گزارش‌های http و https را شامل می‌شود؛ اما در قسمت URL های نمونه گزارش آن صفحاتی را مشاهده می‌کنید که عضوی از Property فعلی شما هستند؛ یعنی اگر در Property مربوط به http هستید؛ در قسمت مشاهده URLها موارد Http قابل مشاهده هستند.
  4. تمامی Request های مربوط به صفحات 301، 302 و 404 شمرده خواهند شد.

گزارش crawl stats

بخش Total crawl request

در این بخش نمودار مربوط به تعداد کل Requestهای بات گوگل نشان داده می‌شود که شامل Requestهایی با پاسخ موفق و ناموفق هستند. این بخش فقط منحصر به صفحات Html نیست و تعداد درخواست‌های Crawl منابع صفحه مانند فایل‌های CSS هم شمرده می‌شود.

گزارش crawl stats

بخش Download size

حجم بایت‌هایی که با Crawl شدن صفحه‌ها در هر روز دانلود می‌شود را نشان می‌دهد. اگر Cache برای منابع فعال باشد فقط در اولین مرتبه درخواست حجم آن‌ها محاسبه می‌شود.

بخش Average Response Time

این نمودار مدت زمان میانگین (mSec) که به درخواست‌های بات گوگل پاسخ داده شده را نشان می‌دهد.

بخش Host Status

این بخش وضعیت پاسخ‌دهی سرور شما را در برابر درخواست‌های بات گوگل مشخص می‌کند. وضعیت پاسخ به سه شکل نمایش داده می‌شود:

  • دایره سبز توپر: در 90 روز گذشته گوگل با مشکل قابل توجهی در هنگام درخواست به سایت شما مواجه نشده است.
  • دایره سبز توخالی: حداقل یک‌بار در 90 روز گذشته گوگل در هنگام ارسال درخواست به سایت شما با مشکل مواجه شده است.
  • دایره قرمز: در هفته گذشته حداقل یک‌بار سایت شما در دسترس نبوده است. این مورد حتماً بایستی مورد بررسی قرار گیرد.

جزئیات Host Status

همان‌گونه که در بند قبل اشاره شد؛ اگر دایره قرمز مشاهده شد حتماً باید بررسی‌های لازم صورت پذیرد. این جزئیات در سه بخش با نمودار مجزا تقسیم‌بندی می‌شود:

مشکلات مرتبط با robot fetch
مشکلات مرتبط با DNS
در دسترس نبودن سرور (این مورد را حتماً به سرویس هاستینگ خود اعلام کنید)

گزارش crawl stats

معرفی بخش By Response

در این بلوک انواع پاسخ‌هایی که به درخواست‌های Crawl داده شده است به نمایش گذاشته می‌شود. با کلیک کردن بر روی هر کد پاسخ، صفحاتی که این پاسخ را برگردانده‌اند را می‌توان مشاهده کرد.

  • پاسخ 200: در حالت عادی بخش عمده‌ای از درخواست‌ها پاسخ 200 را دریافت می‌کنند.
  • پاسخ 301: در مواردی که صفحه خود را Redirect 301 کرده باشید این پاسخ را دریافت می‌کنید.
  • پاسخ 302: صفحاتی که به‌طور موقت Redirect شده باشند، پاسخ 302 را می‌دهند.
  • پاسخ 304: اگر صفحه شما از زمان آخرین Crawl تغییری نکرده باشد، در مقابل آن پاسخ 304 ثبت می‌گردد.

پاسخ‌های 200، 301، 302 و 304 پاسخ‌های مناسبی هستند و می‌توان در مواجهه با آن ‌یک نفس راحت کشید.

گزارش crawl stats

  • پاسخ Blocked by Robots.txt: این صفحات توسط فایل Robots.txt بسته‌شده‌اند و ربات نمی‌تواند به آن‌ها درخواستی ارسال کند. اگر صفحه‌ای به‌طور ناخواسته در این قسمت قرار دارد، این فایل را مجدداً بررسی کنید.
  • پاسخ Not Found 404: برای صفحات 404 و لینک‌های شکسته این پاسخ دریافت می‌شود. قطعاً هر سایتی ممکن است تعدادی صفحات 404 داشته باشد؛ اما برای اطمینان بیشتر این بخش را بررسی کنید تا لینک‌های ناخواسته‌ای در این بخش قرار نگیرد.

در ادامه به خطاهایی می‌پردازیم که حتماً باید بررسی گردد؛ چون به‌تدریج از صفحات گوگل حذف می‌شوند:

  • پاسخ Robots.txt not Available: اگر فایل Robots.txt شما برای مدت‌زمانی در دسترس نباشد، این پاسخ دریافت می‌شود. در این حالت گوگل درخواست‌های Crawl را برای مدتی متوقف می‌کند (این پاسخ جدا از این است که فایل موجود نباشد.)
  • پاسخ (Unauthorized (401/407: این دسته صفحات نیاز به لاگین کردن دارند. این پیج‌‎ها را یا از طریق Robots.txt ببندید یا اگر از نگاه فنی نیاز به لاگین نیست، آن‌ها را تغییر بدهید.
  • پاسخ Server Error: حتماً این خطا را به تیم برنامه‌نویسی اطلاع دهید. این پاسخ مربوط به سرور و در برخی موارد ناشی از اشکالات ساختاری و یا برنامه‌نویسی است.
  • پاسخ (Other Client Error (4XX: نوع این خطا مشخص نیست و باید علت آن طی بررسی‌هایی کشف گردد. به‌عنوان مثال اگر در CDN شما IP های گوگل بسته باشد، صفحات با این خطا مواجه می‌شوند.

خطاهای دیگری مانند DNS Unresponsive، DNS Error، Fetch Error، Page Couldn’t be Reach، Page Time out، Redirect Error هم در دسته خطاهایی قرار می‌گیرند که باید بررسی شوند.

بلوک filetype

در این بلوک نوع فایل‌هایی که crawl شده‌اند را به تفکیک درصد مشاهده می‌کنید. نوع فایل‌های نمایش داده شده عبارت‌اند از:

CSS
JavaScript
Video
Image
Html
Json
PDF
Audio
Syndication (اطلاعات RSS)
و…

گزارش crawl stats

بلوک crawl purpose

این بلوک شامل دو بخش discovery و refresh است. URL هایی که برای اولین بار شناسایی و crawl می‌شوند در بخش refresh جای گرفته و URLهایی که قبلاً crawl شده‌اند در بخش refresh قرار می‌گیرند.

گزارش crawl stats

بلوک google bot type

همان‌طور که می‌دانید گوگل برای اهداف مختلف از بات‌های مختلفی استفاده می‌کند که هرکدام رفتار مختص به خود را دارند. بات های این بخش عبارت‌اند از:

Smartphone
Desktop
Image
Video
Page resource load (برای منابع صفحه مانند CSS)
Adsbot (برای تبلیغات گوگل)
Storebot
Other agent type

با کلیک کردن بر روی هر بات می توان صفحاتی که توسط این بات بررسی شده و نوع پاسخی که دریافت کرده است را به تفکیک مشاهده کرد.

گزارش crawl stats

چند نکته درباره بررسی نرخ خزش

  1. در صورت اضافه کردن بخش جدید به سایت، نرخ خزش شما جهش پیدا خواهد کرد.
  2. اگر سرعت پاسخ به requestهای گوگل از سمت سرور شما کند باشد، به تدریج بات تعداد درخواست‌های خود را کاهش می‌دهد تا فشاری به سرور وارد نشده و بتواند به درخواست کاربران پاسخ هد.
  3. در ابتدای افتتاح سایت و ساخت صفحات جدید عمده درخواست‌ها از جنس discovery است و به تدریج به refresh تبدیل می‌شود
  4. صفحاتی که مدت زیادی محتوای آن‌ها به روز نشود معمولاً کندتر crawl می‌شوند.

هر سایت یک بودجه crawl مشخصی دارد!

در هر بازه زمانی (مثلاً یک روز) به تعداد صفحاتی که توسط بات‌ها crawl می‌شوند بودجه (crawl budget) می‌گویند. این بودجه به منابع سرور شما، محبوبیت صفحه و لینک‌های ورودی به آن، تازگی محتوا و نوع صفحه بستگی دارد. یکی از برنامه‌های متخصصین سئو در تحلیل یک سایت، بررسی crawl budget و بهبود آن است که در مطالب آتی به آن خواهیم پرداخت.

 

 

 

2 دیدگاه‌ها

دیدگاه شما

لطفا دیدگاه خود را وارد کنید!
لطفا نام خود را در اینجا وارد کنید