القائمة الرئيسية

الصفحات

شرح ملف Robots.txt بالتفصيل


 شرح ملف Robots.txt بالتفصيل

شرح ملف Robots.txt
شرح Robots.txt

السلام عليكم مرحبا بكم في مدونة الربح من الأنترنت اليوم سنقوم بشرح مهم جدا خاص بالمواقع وكذلك درس اليوم له علاقة بتصدر موقع الصفحات الأولى من محرك البحث Google الآن ندعكم مع الشرح

تعريف ملف Robots.txt : 
يحدد ملف robots.txt عناوين URL التي يمكن لروبوتات محرك البحث الوصول إليها على موقع الويب الخاص بك. غالبًا ما تُستخدم هذه المعلومات لتجنب إثقال موقعك على الويب بطلبات الزحف وليست آلية لإخفاء صفحة ويب من نتائج بحث Google. إذا كنت تريد إخفاء صفحة من نتائج بحث Google ، فيجب عليك حظر الفهرسة بعلامة noindex أو حماية الصفحة بكلمة مرور.
لماذا نستخدم ملف Robots.txt :
يتم استخدام ملف robots.txt بشكل أساسي لإدارة حركة مرور الزاحف إلى موقع الويب الخاص بك وعادة ما يتم استخدامه لإخفاء ملف من نتائج بحث Google ، اعتمادًا على نوع الملف:
يمكنك استخدام ملف robots.txt لصفحات الويب (بتنسيق HTML أو PDF أو أي تنسيق آخر ليس تنسيق وسائط متعددة ويمكن قراءته بواسطة Google) لإدارة حركة مرور الزحف إذا كنت تشك في أن الخادم سيتم تحميله بشكل زائد عن طريق الطلبات الواردة من Google الزاحف. ، أو لتجنب الزحف إلى صفحات غير مهمة أو مشابهة على موقع الويب الخاص بك.
ملاحظة :
لا تستخدم ملف robots.txt لإخفاء صفحات الويب الخاصة بك من نتائج بحث Google.
إذا وجهت صفحات أخرى المستخدمين إلى صفحتك باستخدام نص وصفي ، فلا يزال بإمكان Google فهرسة عنوان URL دون زيارة الصفحة. لمنع ظهور صفحتك في نتائج البحث ، استخدم طريقة أخرى ، مثل الحماية بكلمة مرور أو إضافة علامة noindex.
إذا تم حظر صفحة الويب بواسطة ملف robots.txt ، فقد يستمر ظهور عنوان URL في نتائج البحث ، لكن نتيجة البحث لن تتضمن وصفًا. سيتم استبعاد الصور ومقاطع الفيديو وملفات PDF وغيرها من الملفات التي ليست بتنسيق HTML. إذا رأيت نتيجة البحث هذه لصفحتك وتريد تصحيحها ، فقم بإزالة إدخال robots.txt الذي يحظر الصفحة. وإذا كنت تريد إخفاء الصفحة تمامًا من البحث ، فعليك استخدام طريقة أخرى.
يمكنك استخدام ملف robots.txt لإدارة حركة مرور الزحف ومنع ملفات الصور والفيديو والصوت من الظهور في نتائج بحث Google. لن يمنع هذا الصفحات الأخرى أو المستخدمين الآخرين من إضافة روابط إلى ملف الصورة / الفيديو / الصوت.
يمكنك استخدام ملف robots.txt لحظر ملفات الموارد ، مثل الصور أو البرامج النصية أو ملفات الأنماط غير المرغوب فيها ، إذا كنت تعتقد أن الصفحات التي تم تحميلها بدون هذه الموارد لن تتأثر بشكل كبير بعدم عرضها. لا تحظر هذه الموارد إذا كان عدم توفرها يجعل من الصعب على زاحف Google فهم محتوى الصفحة ، وإلا فلن تتمكن Google من تحليل صفحاتك التي تعتمد على هذه الموارد بشكل صحيح.
كيف أستخدم ملف Robots.txt:
قبل إنشاء ملف robots.txt أو تحريره ، يجب أن تكون على دراية بقيود طريقة حظر عناوين URL هذه. اعتمادًا على أهدافك وموقفك ، قد تحتاج إلى استخدام آليات أخرى لضمان عدم العثور على عناوين URL الخاصة بموقعك على الويب.
  • قد لا تتوافق توجيهات Robots.txt مع بعض محركات البحث:

لا يمكن للإرشادات الواردة في ملفات robots.txt فرض سلوك معين على الزاحف لموقعك ، لأن الأمر متروك للزاحف ليقرر ما إذا كان سيتبع هذه الإرشادات أم لا. لاحظ أن Googlebot وبرامج زحف الويب الأخرى ذات السمعة الطيبة تتبع الإرشادات الواردة في ملف robots.txt ، على عكس برامج الزحف الأخرى. لذلك ، إذا كنت ترغب في حماية المعلومات من برامج زحف الويب ، نوصيك باستخدام طرق حظر أخرى ، مثل الحماية بكلمة مرور للملفات الخاصة على الخادم.
  • يفسر كل روبوت الهيكل بشكل مختلف:
على الرغم من أن برامج زحف الويب حسنة السمعة تتبع الإرشادات الواردة في ملف robots.txt ، فقد يفسر كل زاحف التوجيهات بشكل مختلف. تحتاج إلى معرفة البنية الصحيحة للتعامل مع برامج زحف الويب المختلفة ، حيث قد لا يتمكن البعض منهم من فهم إرشادات معينة.
  • لا يزال من الممكن فهرسة الصفحة التي تم حظرها باستخدام ملف robot.txt إذا تمت إضافة رابط إليها على مواقع ويب أخرى:
لن تقوم Google بالزحف إلى المحتوى المحظور باستخدام ملف robots.txt أو فهرسته ، ولكننا قد نعثر على عنوان URL غير مصرح به ونفهرسه إذا تمت إضافة روابط إليه في مكان آخر على الويب. لذلك ، قد يستمر ظهور عنوان URL وربما المعلومات الأخرى المتاحة بشكل عام ، مثل النص الأساسي في روابط الصفحة ، في نتائج بحث Google. لمنع ظهور عنوان URL بشكل صحيح في نتائج بحث Google ، يجب حماية الملفات الموجودة على الخادم بكلمة مرور أو استخدام العلامة الوصفية أو عنوان الرد noindex أو حذف الصفحة تمامًا.
ملاحظة :عند الجمع بين عدة أوامر للزحف والفهرسة ، قد تؤدي بعض التوجيهات إلى إبطال أخرى. تعرف على كيفية الجمع بين الزحف والفهرسة وإرشادات العرض.

طريقة إنشاء ملف Robots.txt:

إذا كنت تستخدم خدمة استضافة للمواقع الإلكترونية، مثل Wix أو Drupal أو Blogger، لن تحتاج على الأرجح إلى تعديل ملف robots.txt مباشرةً (أو لن تتمكن من ذلك). وبدلاً من ذلك، قد يعرض موفّر الخدمة صفحةً لإعدادات البحث أو آلية أخرى لتوجيه محركات البحث بالزحف إلى صفحتك أو عدم الزحف إليها.
إذا كنت تريد إخفاء إحدى صفحاتك عن محركات البحث أو إظهارها لها، يمكنك البحث عن تعليمات حول تعديل مستوى ظهور الصفحة في محركات البحث على خدمة الاستضافة، مثل، البحث عن "كيفية إخفاء صفحة من محركات البحث في Wix".
يمكنك تحديد الملفات التي يمكن لبرامج زحف مواقع الويب الوصول إليها باستخدام ملف robots.txt. يتم وضع ملف robots.txt في جذر موقع الويب الخاص بك. على سبيل المثال ، بالنسبة لموقع الويب www.example.com ، يوجد ملف robots.txt على www.example.com/robots.txt. ملف robots.txt هو ملف نصي عادي يتبع معيار استبعاد برامج الروبوت. يتكون ملف robots.txt من قاعدة واحدة أو أكثر. تمنع كل قاعدة أو تسمح لزاحف معين بالوصول إلى مسار ملف معين على موقع الويب هذا. يُسمح بشكل ضمني بالزحف إلى جميع الملفات ، ما لم يتم تحديد خلاف ذلك في ملف robots.txt الخاص بك.
إليك ملف robots.txt بسيط بقاعدتين:
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.example.com/sitemap.xml

إليك ما يعنيه ملف robots.txt هذا: 

  • لا يُسمح لوكيل المستخدم المسمى Googlebot بالزحف إلى عنوان URL باستخدام http://example.com/nogooglebot/ في البداية.
  • يُسمح لجميع برامج وكلاء المستخدم الأخرى بالزحف إلى جميع أجزاء موقع الويب. يمكنك إزالة هذه القاعدة والاستمرار في الحصول على نفس النتيجة ، لأن السلوك الافتراضي هو السماح لبرامج وكيل المستخدم بالزحف إلى جميع أجزاء موقع الويب.
  • يمكن العثور على خريطة موقع الويب على http://www.example.com/sitemap.xml.

الخطوات الأساسية لإنشاء ملف robots.txt :

لإنشاء ملف robots.txt والسماح بالوصول العام إليه واستخدامه ، عليك اتباع أربع خطوات:
  1. قم بإنشاء ملف يسمى robots.txt 
  2. أضف القواعد إلى ملف robots.txt 
  3. قم بتحميل ملف robots.txt إلى موقع الويب الخاص بك 
  4. اختبر ملف robots.txt

إنشاء ملف robots.txt :

يمكنك استخدام أي محرر نصوص تقريبًا لإنشاء ملف robots.txt. على سبيل المثال ، يمكن إنشاء ملفات robots.txt صالحة باستخدام Notepad و TextEdit و vi و emacs. لا تستخدم معالج كلمات ، لأن هذه المعالجات غالبًا ما تحفظ الملفات بتنسيقها الخاص ويمكنها إضافة أحرف غير متوقعة ، مثل علامات الاقتباس المنحنية ، مما قد يتسبب في حدوث مشكلات لبرامج الزحف. تأكد من حفظ الملف بتنسيق UTF-8 إذا طُلب منك ذلك في مربع الحوار "حفظ الملف".

قواعد التنسيق والموقع:

  • يجب تسمية الملف بملف robots.txt.
  • يمكن أن يحتوي موقعك على ملف robots.txt واحد فقط.
  • يجب أن يكون ملف robots.txt موجودًا في جذر مضيف الويب لموقع الويب الذي ينطبق عليه الملف. على سبيل المثال ، للتحكم في الزحف إلى جميع عناوين URL ضمن https://www.example.com/ ، ضع ملف robots.txt على https://www.example.com/robots.txt. لا يمكن أن يكون الملف في دليل فرعي (على سبيل المثال ، على https://example.com/pages/robots.txt). إذا كنت لا تعرف كيفية الوصول إلى جذر موقع الويب الخاص بك ، أو إذا كنت بحاجة إلى أذونات للوصول ، فيمكنك الاتصال بمزود استضافة الويب الخاص بك. إذا لم تتمكن من الوصول إلى جذر موقع الويب الخاص بك ، فيمكنك استخدام طريقة حظر بديلة ، مثل العلامات الوصفية.
  • يمكن تطبيق ملف robots.txt على النطاقات الفرعية (على سبيل المثال https://website.example.com/robots.txt) أو على منافذ غير عادية (على سبيل المثال http://example.com:8181/robots. txt).
  • يجب أن يكون ملف robots.txt عبارة عن ملف نصي بترميز UTF-8 (والذي يتضمن ASCII). قد تتجاهل Google الأحرف غير الموجودة في نطاق UTF-8 ، مما قد يؤدي إلى إبطال القواعد في ملف robots.txt.

إضافة تعليمات إلى ملف robots.txt :

القواعد عبارة عن إرشادات لبرامج الزحف على أجزاء موقع الويب الخاصة بك التي يُسمح بالزحف إليها. اتبع هذا عند إضافة القواعد إلى ملف robots.txt الخاص بك: 
  •  يتكون ملف robots.txt من مجموعة واحدة أو أكثر. 
  • تتكون كل مجموعة من مجموعة من الإرشادات (التعليمات) ، مسار واحد لكل سطر. User-agent تبدأ كل مجموعة بسطر يحدد هدف المجموعة.
  •  تقدم المجموعة المعلومات التالية:
  •  الحلقة التي تنطبق عليها المجموعة (User-agent) 
  • الدلائل أو الملفات التي يمكن للوكيل الوصول إليها 
  • الدلائل أو الملفات التي لا يمكن للوكيل الوصول إليها 
  • تقوم الزواحف بمعالجة المجموعات من أعلى إلى أسفل. يتوافق مع Wanquil Mast،وهي المجموعة الأولى على وجه التحديد Al Takhayal يتوافق مع Wanquil Masi 
  • الافتراضي هو أن يستخدم المستخدم قاعدة disallow 
  • القواعد حساسة لحالة الأحرف. على سبيل المثال ، يمكن تطبيق disallow: /file.asp على https://www.example.com/file.asp وليس على https://www.example.com/FILE.asp 
  • يشير الحرف # إلى بداية التعليق
تحترم برامج زحف Google الإرشادات التالية في ملفات robots.txt:
user-agent: [يجب أن يتضمن توجيهًا واحدًا أو أكثر في كل مجموعة] يحدد التوجيه اسم البرنامج التلقائي المسمى بمحرك البحث الذي تنطبق عليه القاعدة. إنه السطر الأول من أي مجموعة من القواعد. يتم سرد أسماء برامج وكيل مستخدم Google في قائمة برامج وكيل مستخدم Google. يتوافق استخدام علامة النجمة (*) مع جميع برامج الزحف ، باستثناء برامج زحف AdsBot المختلفة التي يجب تحديد اسمها بشكل صريح. مثلا:

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all but AdsBot crawlers
User-agent: *
Disallow: /
  • disallow: [يجب تضمين إدخال واحد أو أكثر أوallow بإدخال لكل قاعدة] تحدد هذه القاعدة دليلاً أو صفحة ذات صلة بالنطاق الجذر لا تريد أن يزحف إليها وكيل المستخدم. إذا كانت القاعدة تشير إلى صفحة ، فيجب إضافة الاسم الكامل للصفحة كما تظهر في المستعرض. يجب أن تبدأ القاعدة بالحرف / ، أو إذا كانت القاعدة تشير إلى دليل ، فيجب أن تنتهي بـ /
  • allow: [يجب أن يتضمن إدخالًا واحدًا أو أكثر أو يسمح بإدخال لكل قاعدة] تحدد هذه القاعدة دليلاً أو صفحة ذات صلة بالنطاق الجذر الذي يمكن لوكيل المستخدم أعلاه الزحف إليه. تُستخدم هذه القاعدة لعدم السماح بتوجيه عدم السماح بحيث يتم الزحف إلى دليل فرعي أو صفحة في دليل تم حظره. لصفحة واحدة ، يجب تحديد الاسم الكامل للصفحة كما يظهر في المستعرض. كما هو الحال مع الدليل ، يجب أن تنتهي القاعدة بـ /
  • Sitemap: [اختياري ، يمكن أن يكون عدد الإدخالات صفرًا أو أكثر لكل ملف] تحدد هذه القاعدة موقع خريطة الموقع لهذا الموقع. يجب أن يكون عنوان URL لملف Sitemap عنوان URL كاملاً ، حيث لا تفترض Google أو تتحقق من بدائل http / https / www.non-www. تعد ملفات Sitemap طريقة جيدة لتحديد المحتوى الذي يجب على Google الزحف إليه والمحتوى الذي يمكن لـ Google الزحف إليه وما لا يمكنه الزحف إليه. مزيد من المعلومات على Sitemap. مثال:
Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
يمكن استخدام حرف البدل * في البادئة أو اللاحقة أو سلسلة المسار الكامل ، في جميع الأوامر باستثناء ملف Sitemap.
يتم تجاهل الأسطر التي لا تتطابق مع أي من هذه التوجيهات.
اقرأ صفحتنا حول كيفية تفسير Google لمواصفات ملف robots.txt للحصول على وصف كامل لكل توجيه.
بعد حفظ ملف robots.txt على جهاز الكمبيوتر الخاص بك ، يمكنك إتاحته لروبوتات محرك البحث. لا توجد أداة محددة متاحة يمكن أن تساعدك ، لأن طريقة تحميل ملف robots.txt إلى موقع الويب الخاص بك تعتمد على موقع الويب الخاص بك وبنية الخادم الخاص بك. يمكنك الاتصال بالشركة المضيفة أو البحث عن مستنداتها ، على سبيل المثال ، يمكنك البحث عن "تنزيل ملفات Infomaniak".
بعد تنزيل ملف robots.txt ، اختبر ما إذا كان عامًا ويمكن لـ Google تحليله.

اختبار ترميز robots.txt :

لاختبار ما إذا كان ملف robots.txt الذي تم تنزيله مؤخرًا متاحًا للجمهور ، افتح نافذة التصفح المتخفي (أو ما يعادله) في متصفحك وانتقل إلى موقع robots.txt. على سبيل المثال: https://example.com/robots.txt. إذا رأيت محتويات ملف robots.txt ، فأنت جاهز لاختبار الترميز الخاص بك.
تقدم Google خيارين لاختبار ترميز robots.txt:
  • أداة اختبار ملف robots.txt في Search Console يمكنك فقط استخدام هذه الأداة لملفات robots.txt التي تم توفيرها بالفعل على موقع الويب الخاص بك.
  • إذا كنت مطورًا ، فتحقق من مكتبة Google robots.txt مفتوحة المصدر ، والتي تُستخدم أيضًا في بحث Google. يمكنك استخدام هذه الأداة لاختبار ملفات robots.txt محليًا على جهاز الكمبيوتر الخاص بك.
بعد تنزيل ملف robots.txt واختباره ، ستعثر برامج الزحف من Google تلقائيًا على ملف robots.txt الخاص بك وتبدأ في استخدامه. لذلك لا داعي لاتخاذ أي إجراء. إذا قمت بتحرير ملف robots.txt وتريد تحديث نسختك المخبأة إلى Google في أقرب وقت ممكن ، فتعرف على كيفية إرسال ملف robots.txt معدل.

 قواعد مفيدة يمكن إضافتها إلى ملف robots.txt:

منع الزحف لجميع أقسام الموقع : 
ضع في اعتبارك أنه في بعض الحالات يمكن فهرسة عناوين URL لمواقع الويب حتى إذا لم يتم الزحف إليها.
لا تتوافق هذه القاعدة مع برامج زحف AdsBot المختلفة ، والتي يجب تحديد اسمها بوضوح.
User-agent: *
Disallow: /
منع الزحف إلى دليل ومحتوياته :
يرجى ملاحظة أنه لا ينبغي استخدام ملف robots.txt لمنع الوصول إلى المحتوى الخاص ، ونوصي باستخدام المصادقة الصحيحة بدلاً من ذلك. يمكن فهرسة عناوين URL المحظورة بواسطة ملف robots.txt دون الزحف إليها ، ويمكن لأي مستخدم عرض ملف robots.txt ، مما قد يكشف عن موضع محتوى خاص.
ملاحظة : يرجى ملاحظة أنه لا ينبغي استخدام ملف robots.txt لمنع الوصول إلى المحتوى الخاص ، ونوصي باستخدام المصادقة الصحيحة بدلاً من ذلك. يمكن فهرسة عناوين URL المحظورة بواسطة ملف robots.txt دون الزحف إليها ، ويمكن لأي مستخدم عرض ملف robots.txt ، مما قد يكشف عن موضع محتوى خاص.
User-agent: *
Disallow: /calendar/
Disallow: /junk/
السماح بالوصول إلى زاحف واحد : 
يُسمح فقط لـ googlebot-news بالزحف إلى جميع أقسام الموقع.
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow:
السماح باستكشاف جميع الروبوتات باستثناء واحد :
لا يُسمح لبرنامج Unnecessarybot بالزحف إلى الموقع الإلكتروني، بينما يُسمح لجميع برامج التتبُّع الأخرى بالزحف إليه.
User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
منع الزحف إلى صفحة ويب واحدة : 
على سبيل المثال ، يمكنك منع الزحف إلى صفحة useless_file.html.
User-agent: *
Disallow: /useless_file.html
منع صورة من الظهور في صور Google :
على سبيل المثال ، يمكنك منع الزحف إلى صورة dogs.jpg.
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
منع جميع الصور الموجودة على موقع الويب الخاص بك من الظهور في صور Google :
لا تستطيع Google فهرسة الصور ومقاطع الفيديو دون الزحف إليها.
User-agent: Googlebot-Image
Disallow: /
منع الزحف إلى ملفات من نوع معين :
على سبيل المثال ، يمكنك منع فحص كافة ملفات .gif.
User-agent: Googlebot
Disallow: /*.gif$
منع الزحف إلى جميع أقسام موقع الويب ، ولكن اسمح لـ Mediapartners-Google بالزحف : 
يخفي هذا الإجراء صفحاتك من نتائج البحث ، ويمكنك استخدام موقع Mediapartners-Google على الويب لتحليلها لتحديد الإعلانات التي سيتم عرضها على زوار الموقع.
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
استخدم $ لمطابقة عناوين URL المنتهية بسلسلة معينة : 
على سبيل المثال ، يمكنك منع فحص جميع ملفات .xls.
User-agent: Googlebot
Disallow: /*.xls$

تعديل ملف robots.txt :

لتغيير قواعد ملف robots.txt الموجود لديك ، قم بتنزيل نسخة من ملف robots.txt من موقع الويب الخاص بك وقم بإجراء أي تعديلات ضرورية.
يمكنك تنزيل ملف robots.txt بطرق مختلفة ، على سبيل المثال:
  • انتقل إلى ملف robots.txt الخاص بك ، على سبيل المثال https://example.com/robots.txt ، وانسخ محتوياته إلى ملف نصي جديد على جهاز الكمبيوتر الخاص بك. تأكد من اتباع إرشادات تنسيق الملف الصحيح عند إنشاء ملف محلي جديد.
  • يمكنك تنزيل نسخة من ملف robots.txt باستخدام أداة مثل cURL. مثلا:
curl https://example.com/robots.txt -o robots.txt

استخدم أداة اختبار robots.txt في Search Console لتنزيل نسخة من ملف robots.txt.
انقر فوق إرسال في الجزء السفلي الأيسر من الصفحة في محرر ملف robots.txt. سيؤدي هذا إلى فتح مربع الحوار إرسال.
قم بتنزيل رمز robots.txt من صفحة أداة اختبار ملف robots.txt بالنقر فوق "تنزيل" في مربع الحوار "إرسال".
تعديل ملف robots.txt :
افتح ملف robots.txt الذي قمت بتنزيله من موقع الويب الخاص بك في محرر نصي وقم بإجراء التغييرات اللازمة على القواعد. تأكد من استخدام الصيغة الصحيحة وحفظ الملف بترميز UTF-8.
تحميل ملف robots.txt :
قم بتحميل ملف robots.txt الجديد إلى جذر المجال الخاص بك كملف نصي يسمى robots.txt. تعتمد كيفية تحميل ملف إلى موقع الويب الخاص بك بشكل كبير على النظام الأساسي والخادم. تحقق من نصائحنا لمساعدتك في تحميل ملف robots.txt إلى موقع الويب الخاص بك.
ملاحظة :
إذا لم يكن مصرحًا لك بتحميل الملفات إلى جذر المجال الخاص بك ، فاتصل بمدير المجال الخاص بك لإجراء التغييرات اللازمة.
على سبيل المثال ، إذا كانت الصفحة الرئيسية لموقعك على subdomain.example.com/site/example/ ، فلن تتمكن على الأرجح من تحرير ملف robots.txt على subdomain.example.com/robots. txt. في هذه الحالة ، اتصل بمالك example.com/ لإجراء التغييرات اللازمة على ملف robots.txt.

للمزيد من المعلومات إقرأ أيضا : 
تحميل ملف Robot.txt : من هنا
شرح Sitemap : من هنا
شرح Google Search Consol : من هنا






    تعليقات

    التنقل السريع