مقالات

گوگل به سایتی که پس از خزش DDoS توسط ربات گوگل رتبه خود را از دست داده بود، پاسخ می‌دهد.

خزش DDoS

فهرست مطالب

نگرانی ناشر در مورد میلیون‌ها درخواست ربات گوگل برای صفحات ناموجود، با از دست رفتن قابلیت مشاهده سایت در جستجو، محقق شد.

جان مولر از گوگل به سوالی در مورد سایتی پاسخ داد که میلیون‌ها درخواست ربات گوگل برای صفحاتی که وجود ندارند دریافت کرده بود، و یک URL ناموجود بیش از دو میلیون بازدید دریافت کرده بود، که اساساً درخواست‌های صفحه در سطح DDoS بود. ظاهراً نگرانی‌های ناشر در مورد بودجه خزش و رتبه‌بندی‌ها محقق شد، زیرا سایت متعاقباً کاهش بازدید جستجو را تجربه کرد.

صفحات NoIndex حذف و به ۴۱۰ تبدیل شدند

کد پاسخ سرور 410 Gone متعلق به خانواده کدهای پاسخ 400 است که نشان می‌دهد صفحه در دسترس نیست. پاسخ 404 به این معنی است که صفحه در دسترس نیست و هیچ ادعایی در مورد بازگشت URL در آینده ندارد، فقط می‌گوید صفحه در دسترس نیست.

کد وضعیت ۴۱۰ Gone به این معنی است که صفحه از بین رفته است و احتمالاً هرگز باز نخواهد گشت. برخلاف کد وضعیت ۴۰۴، کد ۴۱۰ به مرورگر یا خزنده سیگنال می‌دهد که وضعیت از دست رفته منبع عمدی است و هر پیوندی به منبع باید حذف شود.

شخصی که این سوال را پرسیده بود، در حال پیگیری سوالی بود که سه هفته پیش در ردیت مطرح کرده بود و در آن اشاره کرده بود که حدود ۱۱ میلیون آدرس اینترنتی دارند که نباید قابل کشف می‌شدند و آنها را به طور کامل حذف کرده و شروع به ارائه کد پاسخ ۴۱۰ کرده‌اند. پس از یک ماه و نیم، ربات گوگل همچنان به جستجوی صفحات گمشده ادامه داد. آنها نگرانی خود را در مورد بودجه خزش و تأثیرات بعدی آن بر رتبه‌بندی‌هایشان به اشتراک گذاشتند.

مولر در آن زمان آنها را به صفحه پشتیبانی گوگل هدایت کرد.

افت رتبه‌بندی‌ها همزمان با ادامه‌ی حملات DDOS گوگل به سایت‌ها

سه هفته بعد اوضاع بهتر نشد و آنها یک سوال تکمیلی ارسال کردند و اشاره کردند که بیش از پنج میلیون درخواست برای صفحاتی که وجود ندارند دریافت کرده‌اند. آنها یک URL واقعی را در سوال خود ارسال کردند اما من آن را ناشناس کردم، در غیر این صورت، سوال عیناً همان است.

آن شخص پرسید:

«گوگل‌بات همچنان به شدت در حال خزش یک URL واحد (همراه با رشته‌های پرس‌وجو) است، اگرچه حدود دو ماه است که وضعیت ۴۱۰ (حذف‌شده) را برمی‌گرداند.»

تنها در ۳۰ روز گذشته، تقریباً ۵.۴ میلیون درخواست از Googlebot مشاهده کرده‌ایم. از این تعداد، حدود ۲.۴ میلیون درخواست به این آدرس اینترنتی هدایت شده‌اند:
https://example.net/software/virtual-dj/ با رشته جستجوی ?feature.

ما همچنین در این مدت شاهد کاهش قابل توجهی در دیده شدن خود در گوگل بوده‌ایم، و من نمی‌توانم از این فکر که آیا ارتباطی وجود دارد یا خیر، دست بردارم – فقط یک جای کار می‌لنگد. صفحه آسیب‌دیده این است:
https://example.net/software/virtual-dj/?feature=…

دلیل اینکه گوگل در وهله اول همه این URLها را کشف کرد این بود که ما ناخواسته آنها را در یک فایل JSON تولید شده توسط Next.js قرار دادیم – آنها لینک‌های واقعی در سایت نبودند.

ما نحوه عملکرد «ویژگی‌های چندگانه» خود را تغییر داده‌ایم (با استفاده از ?mf querystring و قرار داشتن آن querystring در robots.txt)

آیا اضافه کردن چیزی شبیه به این به robots.txt ما مشکل‌ساز خواهد بود؟

عدم اجازه: /software/virtual-dj/?feature=*

هدف اصلی: جلوگیری از این خزش بیش از حد که باعث پر شدن لاگ‌های ما و ایجاد عوارض جانبی ناخواسته شود.

جان مولر از گوگل تأیید کرد که رفتار عادی گوگل این است که مرتباً برگردد تا بررسی کند آیا صفحه‌ای که از دست رفته است، برگشته است یا خیر. این رفتار پیش‌فرض گوگل است که بر اساس تجربه‌ای است که ناشران می‌توانند اشتباه کنند و بنابراین آنها به صورت دوره‌ای برمی‌گردند تا تأیید کنند که آیا صفحه بازیابی شده است یا خیر. این یک ویژگی مفید برای ناشرانی است که ممکن است ناخواسته یک صفحه وب را حذف کنند.

مولر در پاسخ گفت:

«گوگل تلاش می‌کند صفحاتی را که مدت‌ها پیش وجود داشته‌اند، دوباره بررسی کند و اگر تعداد زیادی از آنها را داشته باشید، احتمالاً تعداد بیشتری از آنها را خواهید دید. این مشکلی نیست – اشکالی ندارد که صفحات حذف شوند، حتی اگر تعدادشان زیاد باشد. با این اوصاف، اگر درخواست‌ها شما را آزار می‌دهند، غیرفعال کردن بررسی با robots.txt نیز اشکالی ندارد.»

احتیاط: سئوی فنی در پیش است

بخش بعدی جایی است که سئو فنی می‌شود. مولر هشدار می‌دهد که راه حل پیشنهادی برای اضافه کردن robots.txt می‌تواند سهواً رندر صفحاتی را که قرار نیست از دست بروند، مختل کند.

او اساساً به فردی که این سوال را می‌پرسد توصیه می‌کند که:

دوباره بررسی کنید که آدرس‌های اینترنتی ?feature= به هیچ وجه در هیچ کد frontend یا فایل‌های JSON که صفحات مهم را پشتیبانی می‌کنند، استفاده نشده باشند.
از Chrome DevTools برای شبیه‌سازی اتفاقی که در صورت مسدود شدن آن URLها رخ می‌دهد استفاده کنید تا بتوانید خرابی را زودتر تشخیص دهید.
کنسول جستجو را برای خطاهای نرم افزاری 404 رصد کنید تا هرگونه تأثیر ناخواسته را روی صفحاتی که باید ایندکس شوند، مشاهده کنید.
جان مولر ادامه داد:

«نکته اصلی که باید مراقبش باشم این است که همه اینها واقعاً 404/410 برمی‌گردانند، و نه اینکه برخی از آنها توسط چیزی مانند جاوا اسکریپت در صفحاتی که می‌خواهید ایندکس شوند استفاده می‌شوند (چون به بار داده JSON اشاره کردید).

تشخیص اینکه چه زمانی اجازه خزش به یک منبع جاسازی‌شده را نمی‌دهید (چه مستقیماً در صفحه جاسازی شده باشد و چه بنا به درخواست بارگذاری شده باشد) واقعاً دشوار است – گاهی اوقات صفحه‌ای که به آن ارجاع می‌دهد، رندر شدن را متوقف می‌کند و اصلاً نمی‌تواند ایندکس شود.

اگر صفحات رندر شده توسط جاوا اسکریپت در سمت کلاینت دارید، سعی می‌کنم بفهمم که آدرس‌های اینترنتی قبلاً به کجا ارجاع داده می‌شدند (اگر می‌توانید) و آدرس‌های اینترنتی را در ابزارهای توسعه کروم مسدود کنم تا ببینم هنگام بارگذاری صفحه چه اتفاقی می‌افتد.

اگر نمی‌توانید بفهمید که کجا بودند، من بخشی از آنها را غیرفعال می‌کنم و خطاهای Soft-404 را در کنسول جستجو زیر نظر می‌گیرم تا ببینم آیا اتفاق قابل مشاهده‌ای در آنجا رخ می‌دهد یا خیر.

اگر از رندرینگ سمت کلاینت جاوا اسکریپت استفاده نمی‌کنید، احتمالاً می‌توانید این پاراگراف را نادیده بگیرید :-).

همچنین ببینید: جان مولر با پاسخ به یک سوال منفی سئو، همه را شگفت‌زده کرد

تفاوت بین دلیل آشکار و علت واقعی

جان مولر از گوگل حق دارد که تشخیص عمیق‌تری را برای رد خطاهای ناشر پیشنهاد دهد. یک خطای ناشر، زنجیره‌ای از رویدادها را آغاز کرد که منجر به ایندکس شدن صفحات برخلاف میل ناشر شد. بنابراین منطقی است که از ناشر بخواهیم بررسی کند که آیا دلیل موجه‌تری برای از دست دادن قابلیت مشاهده در جستجو وجود دارد یا خیر. این یک وضعیت کلاسیک است که در آن یک دلیل واضح لزوماً دلیل صحیح نیست. بین یک دلیل واضح بودن و علت واقعی بودن تفاوت وجود دارد. بنابراین پیشنهاد مولر مبنی بر اینکه از یافتن علت ناامید نشوید، توصیه خوبی است.

به این صفحه امتیاز بدهید
در بحث درباره این مقاله شرکت کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

هجده − چهار =

شروع به تایپ کردن برای دیدن پستهایی که دنبال آن هستید.