نگرانی ناشر در مورد میلیونها درخواست ربات گوگل برای صفحات ناموجود، با از دست رفتن قابلیت مشاهده سایت در جستجو، محقق شد.
جان مولر از گوگل به سوالی در مورد سایتی پاسخ داد که میلیونها درخواست ربات گوگل برای صفحاتی که وجود ندارند دریافت کرده بود، و یک URL ناموجود بیش از دو میلیون بازدید دریافت کرده بود، که اساساً درخواستهای صفحه در سطح DDoS بود. ظاهراً نگرانیهای ناشر در مورد بودجه خزش و رتبهبندیها محقق شد، زیرا سایت متعاقباً کاهش بازدید جستجو را تجربه کرد.
صفحات NoIndex حذف و به ۴۱۰ تبدیل شدند
کد پاسخ سرور 410 Gone متعلق به خانواده کدهای پاسخ 400 است که نشان میدهد صفحه در دسترس نیست. پاسخ 404 به این معنی است که صفحه در دسترس نیست و هیچ ادعایی در مورد بازگشت URL در آینده ندارد، فقط میگوید صفحه در دسترس نیست.
کد وضعیت ۴۱۰ Gone به این معنی است که صفحه از بین رفته است و احتمالاً هرگز باز نخواهد گشت. برخلاف کد وضعیت ۴۰۴، کد ۴۱۰ به مرورگر یا خزنده سیگنال میدهد که وضعیت از دست رفته منبع عمدی است و هر پیوندی به منبع باید حذف شود.
شخصی که این سوال را پرسیده بود، در حال پیگیری سوالی بود که سه هفته پیش در ردیت مطرح کرده بود و در آن اشاره کرده بود که حدود ۱۱ میلیون آدرس اینترنتی دارند که نباید قابل کشف میشدند و آنها را به طور کامل حذف کرده و شروع به ارائه کد پاسخ ۴۱۰ کردهاند. پس از یک ماه و نیم، ربات گوگل همچنان به جستجوی صفحات گمشده ادامه داد. آنها نگرانی خود را در مورد بودجه خزش و تأثیرات بعدی آن بر رتبهبندیهایشان به اشتراک گذاشتند.
مولر در آن زمان آنها را به صفحه پشتیبانی گوگل هدایت کرد.
افت رتبهبندیها همزمان با ادامهی حملات DDOS گوگل به سایتها
سه هفته بعد اوضاع بهتر نشد و آنها یک سوال تکمیلی ارسال کردند و اشاره کردند که بیش از پنج میلیون درخواست برای صفحاتی که وجود ندارند دریافت کردهاند. آنها یک URL واقعی را در سوال خود ارسال کردند اما من آن را ناشناس کردم، در غیر این صورت، سوال عیناً همان است.
آن شخص پرسید:
«گوگلبات همچنان به شدت در حال خزش یک URL واحد (همراه با رشتههای پرسوجو) است، اگرچه حدود دو ماه است که وضعیت ۴۱۰ (حذفشده) را برمیگرداند.»
تنها در ۳۰ روز گذشته، تقریباً ۵.۴ میلیون درخواست از Googlebot مشاهده کردهایم. از این تعداد، حدود ۲.۴ میلیون درخواست به این آدرس اینترنتی هدایت شدهاند:
https://example.net/software/virtual-dj/ با رشته جستجوی ?feature.
ما همچنین در این مدت شاهد کاهش قابل توجهی در دیده شدن خود در گوگل بودهایم، و من نمیتوانم از این فکر که آیا ارتباطی وجود دارد یا خیر، دست بردارم – فقط یک جای کار میلنگد. صفحه آسیبدیده این است:
https://example.net/software/virtual-dj/?feature=…
دلیل اینکه گوگل در وهله اول همه این URLها را کشف کرد این بود که ما ناخواسته آنها را در یک فایل JSON تولید شده توسط Next.js قرار دادیم – آنها لینکهای واقعی در سایت نبودند.
ما نحوه عملکرد «ویژگیهای چندگانه» خود را تغییر دادهایم (با استفاده از ?mf querystring و قرار داشتن آن querystring در robots.txt)
آیا اضافه کردن چیزی شبیه به این به robots.txt ما مشکلساز خواهد بود؟
عدم اجازه: /software/virtual-dj/?feature=*
هدف اصلی: جلوگیری از این خزش بیش از حد که باعث پر شدن لاگهای ما و ایجاد عوارض جانبی ناخواسته شود.
جان مولر از گوگل تأیید کرد که رفتار عادی گوگل این است که مرتباً برگردد تا بررسی کند آیا صفحهای که از دست رفته است، برگشته است یا خیر. این رفتار پیشفرض گوگل است که بر اساس تجربهای است که ناشران میتوانند اشتباه کنند و بنابراین آنها به صورت دورهای برمیگردند تا تأیید کنند که آیا صفحه بازیابی شده است یا خیر. این یک ویژگی مفید برای ناشرانی است که ممکن است ناخواسته یک صفحه وب را حذف کنند.
مولر در پاسخ گفت:
«گوگل تلاش میکند صفحاتی را که مدتها پیش وجود داشتهاند، دوباره بررسی کند و اگر تعداد زیادی از آنها را داشته باشید، احتمالاً تعداد بیشتری از آنها را خواهید دید. این مشکلی نیست – اشکالی ندارد که صفحات حذف شوند، حتی اگر تعدادشان زیاد باشد. با این اوصاف، اگر درخواستها شما را آزار میدهند، غیرفعال کردن بررسی با robots.txt نیز اشکالی ندارد.»
احتیاط: سئوی فنی در پیش است
بخش بعدی جایی است که سئو فنی میشود. مولر هشدار میدهد که راه حل پیشنهادی برای اضافه کردن robots.txt میتواند سهواً رندر صفحاتی را که قرار نیست از دست بروند، مختل کند.
او اساساً به فردی که این سوال را میپرسد توصیه میکند که:
دوباره بررسی کنید که آدرسهای اینترنتی ?feature= به هیچ وجه در هیچ کد frontend یا فایلهای JSON که صفحات مهم را پشتیبانی میکنند، استفاده نشده باشند.
از Chrome DevTools برای شبیهسازی اتفاقی که در صورت مسدود شدن آن URLها رخ میدهد استفاده کنید تا بتوانید خرابی را زودتر تشخیص دهید.
کنسول جستجو را برای خطاهای نرم افزاری 404 رصد کنید تا هرگونه تأثیر ناخواسته را روی صفحاتی که باید ایندکس شوند، مشاهده کنید.
جان مولر ادامه داد:
«نکته اصلی که باید مراقبش باشم این است که همه اینها واقعاً 404/410 برمیگردانند، و نه اینکه برخی از آنها توسط چیزی مانند جاوا اسکریپت در صفحاتی که میخواهید ایندکس شوند استفاده میشوند (چون به بار داده JSON اشاره کردید).
تشخیص اینکه چه زمانی اجازه خزش به یک منبع جاسازیشده را نمیدهید (چه مستقیماً در صفحه جاسازی شده باشد و چه بنا به درخواست بارگذاری شده باشد) واقعاً دشوار است – گاهی اوقات صفحهای که به آن ارجاع میدهد، رندر شدن را متوقف میکند و اصلاً نمیتواند ایندکس شود.
اگر صفحات رندر شده توسط جاوا اسکریپت در سمت کلاینت دارید، سعی میکنم بفهمم که آدرسهای اینترنتی قبلاً به کجا ارجاع داده میشدند (اگر میتوانید) و آدرسهای اینترنتی را در ابزارهای توسعه کروم مسدود کنم تا ببینم هنگام بارگذاری صفحه چه اتفاقی میافتد.
اگر نمیتوانید بفهمید که کجا بودند، من بخشی از آنها را غیرفعال میکنم و خطاهای Soft-404 را در کنسول جستجو زیر نظر میگیرم تا ببینم آیا اتفاق قابل مشاهدهای در آنجا رخ میدهد یا خیر.
اگر از رندرینگ سمت کلاینت جاوا اسکریپت استفاده نمیکنید، احتمالاً میتوانید این پاراگراف را نادیده بگیرید :-).
همچنین ببینید: جان مولر با پاسخ به یک سوال منفی سئو، همه را شگفتزده کرد
تفاوت بین دلیل آشکار و علت واقعی
جان مولر از گوگل حق دارد که تشخیص عمیقتری را برای رد خطاهای ناشر پیشنهاد دهد. یک خطای ناشر، زنجیرهای از رویدادها را آغاز کرد که منجر به ایندکس شدن صفحات برخلاف میل ناشر شد. بنابراین منطقی است که از ناشر بخواهیم بررسی کند که آیا دلیل موجهتری برای از دست دادن قابلیت مشاهده در جستجو وجود دارد یا خیر. این یک وضعیت کلاسیک است که در آن یک دلیل واضح لزوماً دلیل صحیح نیست. بین یک دلیل واضح بودن و علت واقعی بودن تفاوت وجود دارد. بنابراین پیشنهاد مولر مبنی بر اینکه از یافتن علت ناامید نشوید، توصیه خوبی است.