الروبوتات txt لا تسمح للجميع بعدم السماح بكل شيء. كيفية منع فهرسة الصفحات الضرورية. كيفية البحث عن الصفحات التي يجب إغلاقها من الفهرسة

08.07.2020

عند زيارة أحد المواقع ، يستخدم روبوت البحث قدرًا محدودًا من الموارد للفهرسة. أي أن روبوت البحث يمكنه تنزيل عدد معين من الصفحات في زيارة واحدة. اعتمادًا على تكرار التحديث ، والحجم ، وعدد المستندات ، والكثير ، قد تأتي الروبوتات كثيرًا وتنزيل المزيد من الصفحات.

كلما زاد تنزيل الصفحات ، زاد عدد الصفحات التي يتم تنزيلها معلومات أسرعمن موقعك في نتائج البحث. بالإضافة إلى حقيقة أن الصفحات ستظهر بشكل أسرع في البحث ، فإن التغييرات في محتوى المستندات تسري أيضًا بشكل أسرع.

فهرسة سريعة للموقع

فهرسة سريعة لصفحات الموقعيساعد على مكافحة سرقة المحتوى الفريد ، ويسمح بسبب حداثته وأهميته. لكن الشيء الأكثر أهمية. تتيح لك الفهرسة الأسرع تتبع كيفية تأثير تغييرات معينة على موضع الموقع في نتائج البحث.

فهرسة الموقع ضعيفة وبطيئة

لماذا تمت فهرسة الموقع بشكل سيئ؟ يمكن أن يكون هناك العديد من الأسباب ، وإليك الأسباب الرئيسية لبطء فهرسة الموقع.

يتم تحميل صفحات الموقع ببطء. يمكن أن يتسبب هذا في استبعاد الموقع تمامًا من الفهرس.
نادرا ما يتم تحديث الموقع. لماذا يأتي الروبوت غالبًا إلى موقع تظهر فيه الصفحات الجديدة مرة واحدة في الشهر.
محتوى غير فريد. إذا كان الموقع يحتوي على (مقالات ، صور) ، فسيقوم محرك البحث بتقليل الثقة (الثقة) في موقعك وتقليل استهلاك الموارد لفهرسته.
عدد كبير من الصفحات. إذا كان الموقع يحتوي على الكثير من الصفحات وليس هناك ، فقد يستغرق الأمر وقتًا طويلاً لفهرسة أو إعادة فهرسة جميع صفحات الموقع.
هيكل موقع معقد. يجعل الهيكل المعقد للموقع والعدد الكبير من المرفقات من الصعب جدًا فهرسة صفحات الموقع.
الكثير من الصفحات الإضافية. يحتوي كل موقع على صفحات مقصودة يكون محتواها ثابتًا وفريدًا ومفيدًا للمستخدمين وصفحات جانبية مثل صفحات تسجيل الدخول أو تصفية الصفحات. في حالة وجود مثل هذه الصفحات ، فعادةً ما يكون هناك الكثير منها ، ولكن لا تتم فهرستها جميعًا. والصفحات التي تصل إلى هناك تتنافس مع الصفحات المقصودة. تتم إعادة فهرسة كل هذه الصفحات بانتظام ، مما يستهلك المورد المحدود بالفعل المخصص لفهرسة موقعك.
صفحات ديناميكية. إذا كانت هناك صفحات على الموقع لا يعتمد محتواها على المعلمات الديناميكية (على سبيل المثال: site.ru/page.html؟lol=1&wow=2&bom=3) ، ونتيجة لذلك ، فإن العديد من التكرارات من site.ru/page.html قد تظهر الصفحة المقصودة.

هناك أسباب أخرى لضعف فهرسة الموقع. ومع ذلك ، فإن الخطأ الأكثر شيوعًا هو.

أزل كل شيء من الفهرسة

هناك العديد من الفرص للاستخدام الرشيد للموارد التي تخصصها محركات البحث لفهرسة الموقع. وهو ملف robots.txt الذي يفتح فرصًا واسعة لإدارة فهرسة الموقع.

باستخدام التوجيهات Allow و Disallow و Clean-param وغيرها ، يمكنك توزيع ليس فقط انتباه روبوت البحث بشكل فعال ، ولكن أيضًا تقليل الحمل على الموقع بشكل كبير.

أولاً ، تحتاج إلى استبعاد كل شيء غير ضروري من الفهرسة ، باستخدام التوجيه Disallow.

على سبيل المثال ، لنقم بتعطيل صفحات تسجيل الدخول والتسجيل:

Disallow: / عدم السماح بتسجيل الدخول: / تسجيل

تعطيل فهرسة العلامات:

Disallow: / العلامة

بعض الصفحات الديناميكية:

عدم السماح: / *؟ lol = 1

أو كل الصفحات الديناميكية:

عدم السماح: /*؟*

أو إبطال الصفحات ذات المعلمات الديناميكية:

كلين بارام: لول و واو و بوم /

في العديد من المواقع ، قد يختلف عدد الصفحات التي يعثر عليها الروبوت عن عدد الصفحات في البحث بمقدار 3 مرات أو أكثر. أي أن أكثر من 60٪ من صفحات الموقع لا تشارك في البحث وهي ثقل يجب إما إدخاله في البحث أو التخلص منه. من خلال استبعاد الصفحات غير المقصودة وتقريب عدد الصفحات في البحث إلى 100٪ ، ستلاحظ زيادة كبيرة في سرعة فهرسة الموقع ومواضع أعلى في نتائج البحث والمزيد من حركة المرور.

أكثر حول فهرسة الموقع، أثر الفهرسة على الإصدار، صفحات الموقع، أخرى طرق تسريع فهرسة الموقعو أسباب فهرسة الموقع السيئةقراءة المشاركات التالية. في أثناء.

قم بإسقاط الصابورة غير الضرورية وانتقل إلى القمة بشكل أسرع.

كيف تمنع فهرسة صفحات معينة؟

يتم أخذ الأذونات والمحظورات الخاصة بالفهرسة من قبل جميع محركات البحث من الملف ملف robots.txtالموجود في الدليل الجذر للخادم. قد يظهر حظر على فهرسة عدد من الصفحات ، على سبيل المثال ، لأسباب تتعلق بالسرية أو بسبب الرغبة في عدم فهرسة نفس المستندات بترميزات مختلفة. كلما كان خادمك أصغر ، زادت سرعة تجاوز الروبوت له. لذلك ، قم بتعطيل جميع المستندات الموجودة في ملف robots.txt التي لا معنى لفهرستها (على سبيل المثال ، ملفات الإحصائيات أو قوائم الملفات في الدلائل). انتبه بشكل خاص لنصوص CGI أو ISAPI - يقوم الروبوت لدينا بفهرستها مع المستندات الأخرى.

في أبسط أشكاله (كل شيء مسموح به باستثناء دليل البرنامج النصي) ، يبدو ملف robots.txt على النحو التالي:

وكيل المستخدم: *
Disallow: / cgi-bin /

يمكن العثور على وصف تفصيلي لمواصفات الملف على الصفحة: "".

عند كتابة ملف robots.txt ، انتبه للأخطاء الشائعة التالية:

1. السطر الذي يحتوي على حقل وكيل المستخدم مطلوب ويجب أن يسبق الأسطر بالحقل عدم السماح. على سبيل المثال ، لا يحظر ملف robots.txt التالي أي شيء:

Disallow: / cgi-bin
Disallow: / forum

2. تعتبر الأسطر الفارغة في ملف robots.txt مهمة ، فهي تفصل الإدخالات المتعلقة بروبوتات مختلفة. على سبيل المثال ، في الجزء التالي من ملف robots.txt ، السطر Disallow: / forumتم تجاهله لأنه لا يوجد سطر حقل قبله وكيل المستخدم.

وكيل المستخدم: *
Disallow: / cgi-bin
Disallow: / forum

3. محاذاة حقل عدم السماحيمكن أن يمنع فهرسة المستندات ببادئة واحدة فقط. لتعطيل البادئات المتعددة ، اكتب سطورًا متعددة. على سبيل المثال ، يمنع الملف أدناه فهرسة المستندات التي تبدأ بـ " / cgi-bin / المنتدى"، والتي ، على الأرجح ، غير موجودة (وليست المستندات ذات البادئات / cgi-binو / المنتدى).

وكيل المستخدم: *
Disallow: / cgi-bin / forum

4. في سطور مع حقل عدم السماحليست مطلقة ، لكن البادئات النسبية مكتوبة. هذا هو الملف

وكيل المستخدم: *
عدم السماح: www.myhost.ru/cgi-bin

يحظر ، على سبيل المثال ، فهرسة المستندات http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi، لكنها لا تمنع فهرسة المستند http://www.myhost.ru/cgi-bin/counter.cgi.

5. في سطور مع مجال عدم السماحالبادئات محددة وليس شيئًا آخر. لذا فإن الملف:

وكيل المستخدم: *
عدم السماح: *

يحظر فهرسة المستندات التي تبدأ بالحرف "*" (وهي غير موجودة في الطبيعة) ، وهي مختلفة تمامًا عن الملف:

وكيل المستخدم: *
عدم السماح: /

مما يمنع فهرسة الموقع بالكامل.

إذا لم تتمكن من إنشاء / تعديل ملف ملف robots.txt، فلن نفقد كل شيء - فقط أضف علامة إضافية في كود HTML لصفحتك (داخل العلامة ):

ثم لن تتم فهرسة هذا المستند أيضًا.

يمكنك أيضًا استخدام العلامة

هذا يعني أن روبوت محرك البحث يجب ألا يتبع الروابط من هذه الصفحة.

لحظر فهرسة الصفحة في نفس الوقت وتجاوز الروابط منها ، استخدم العلامة

كيف تمنع فهرسة أجزاء معينة من النص؟

لمنع فهرسة أجزاء معينة من النص في مستند ما ، قم بتمييزها بعلامات

انتباه! يجب ألا تكسر علامة NOINDEX تداخل العلامات الأخرى. إذا حددت البنية الخاطئة التالية:

… code1…

... كود 2 ...

… code3…

حظر الفهرسة لن يشمل فقط "code1" و "code2" ، ولكن أيضًا "code3".

كيف تختار مضيفًا افتراضيًا رئيسيًا من مرايا متعددة؟

إذا كان موقعك موجودًا على نفس الخادم (نفس عنوان IP) ، ولكنه مرئي في العالم الخارجي بأسماء مختلفة (مرايا ، مضيفات افتراضية مختلفة) ، توصي Yandex بتحديد الاسم الذي تريد فهرسته تحته. خلاف ذلك ، ستختار Yandex المرآة الرئيسية من تلقاء نفسها ، وسيتم حظر الأسماء الأخرى من الفهرسة.

لكي تتم فهرسة المرآة التي اخترتها ، يكفي حظر فهرسة جميع المرايا الأخرى التي تستخدمها. يمكن القيام بذلك باستخدام امتداد ملف robots.txt غير القياسي - التوجيه مضيف، مع تحديد اسم المرآة الرئيسية كمعامل لها. اذا كان www.glavnoye-zerkalo.ruهي النسخة المتطابقة الرئيسية ، إذًا يجب أن يبدو ملف robots.txt على النحو التالي:

وكيل المستخدم: *
Disallow: / forum
Disallow: / cgi-bin
المضيف: www.glavnoye-zerkalo.ru

للتوافق مع برامج الروبوت التي لا تتبع المعيار بالكامل عند معالجة ملف robots.txt ، يجب إضافة توجيه المضيف في المجموعة التي تبدأ بإدخال User-Agent ، مباشرة بعد إدخالات Disallow.

حجة توجيهية مضيفهو اسم مجال برقم منفذ ( 80 افتراضي) ، مفصولة بنقطتين. إذا لم يتم تحديد أي موقع كوسيطة لـ مضيف، فهذا يعني وجود التوجيه عدم السماح: /، بمعنى آخر. الحظر الكامل للفهرسة (إذا كان هناك توجيه واحد صحيح على الأقل في المجموعة مضيف). لذا فإن الملفات ملف robots.txtطيب القلب

وكيل المستخدم: *
المضيف: www.myhost.ru

وكيل المستخدم: *
المضيف: www.myhost.ru:80

مكافئة وتمنع الفهرسة www.otherhost.ru، و www.myhost.ru:8080.

يجب أن تتكون معلمة توجيه المضيف من اسم مضيف واحد صالح (أي RFC 952وغير عنوان IP) ورقم منفذ صالح. خطوط خاطئة مضيفتجاهله.

# أمثلة لتوجيهات المضيف التي تم تجاهلها
المضيف: www.myhost-.ru
المضيف: www.- myhost.ru
المضيف: www.myhost.ru:0
المضيف: www.my_host.ru
مضيف: . my-host.com:8000
المضيف: my-host.ru.
المضيف: my..host.ru
المضيف: www.myhost.ru/
المضيف: www.myhost.ru:8080/
المضيف: http://www.myhost.ru
المضيف: www.mysi.te
المضيف: 213.180.194.129.70
المضيف: www.firsthost.ru، www.secondhost.ru
المضيف: www.firsthost.ru www.secondhost.ru

إذا كان لديك خادم Apache ، فبدلاً من استخدام توجيه المضيف ، يمكنك تعيين ملف robots.txt باستخدام توجيهات SSI:

وكيل المستخدم: *
عدم السماح: /

في هذا الملف ، يحظر على الروبوت تجاوز جميع المضيفين باستثناء www.main_name.ru

لتمكين SSI ، راجع وثائق الخادم أو اتصل بمسؤول النظام. يمكنك التحقق من النتيجة ببساطة عن طريق الاستعلام عن الصفحات:

http://www.main_name.ru/robots.txt
http://www.other_name.ru/robots.txtإلخ. يجب أن تكون النتائج مختلفة.

توصيات لخادم الويب الروسي اباتشي

في ملف robots.txt على المواقع التي تحتوي على Apache الروسية ، يجب حظر جميع الترميزات ، باستثناء الترميز الرئيسي ، على برامج الروبوت.

إذا تم تحليل الترميزات بواسطة المنافذ (أو الخوادم) ، فمن الضروري إصدار ملف robots.txt مختلف على منافذ (خوادم) مختلفة. وبالتحديد ، في جميع ملفات robots.txt لجميع المنافذ / الخوادم ، باستثناء "الرئيسي" ، يجب كتابتها:

وكيل المستخدم: *
عدم السماح: /

للقيام بذلك ، يمكنك استخدام آلية SSI ،.

إذا كانت الترميزات في Apache مميزة بأسماء الدلائل "الافتراضية" ، فأنت بحاجة إلى كتابة ملف robots.txt واحد ، والذي يجب أن يحتوي تقريبًا على الأسطر التالية (اعتمادًا على أسماء الأدلة):

وكيل المستخدم: *
Disallow: / دوس
Disallow: / ماك
عدم السماح: / koi

مولد المبيعات

وقت القراءة: 18 دقيقة

سوف نرسل لك المواد:

القضايا التي تمت مناقشتها في المادة:

ما هو الدور الذي يلعبه ملف robots.txt في فهرسة الموقع
كيفية تعطيل فهرسة الموقع وصفحاته الفردية باستخدام ملف robots.txt
ما هي توجيهات robots.txt المستخدمة لإعدادات فهرسة الموقع
ما هي أكثر الأخطاء شيوعًا التي تحدث عند إنشاء ملف robots.txt

مورد الويب جاهز للعمل: فهو مليء بنصوص فريدة عالية الجودة ، وصور أصلية ، ومن الملائم التنقل عبر الأقسام ، والتصميم يرضي العين. يبقى فقط لتقديم بنات أفكارك لمستخدمي الإنترنت. لكن يجب أن تكون محركات البحث أول من يتعرف على البوابة. تسمى عملية المواعدة الفهرسة ، ويتم لعب أحد الأدوار الرئيسية فيها بواسطة روبوتات الملفات النصية. من أجل فهرسة موقع robots.txt بنجاح ، يجب تلبية عدد من المتطلبات المحددة.

يعد محرك موارد الويب (CMS) أحد العوامل التي تؤثر بشكل كبير على سرعة الفهرسة بواسطة عناكب البحث. لماذا من المهم توجيه برامج الزحف إلى الصفحات المهمة فقط التي يجب أن تظهر في SERPs؟

يبحث روبوت محرك البحث في عدد محدود من الملفات على مورد معين ، ثم ينتقل إلى الموقع التالي. في حالة عدم وجود قيود محددة ، يمكن أن يبدأ عنكبوت البحث عن طريق فهرسة ملفات المحرك ، والتي يكون عددها أحيانًا بالآلاف - ببساطة لن يكون لدى الروبوت الوقت للمحتوى الرئيسي.
أو سيقوم بفهرسة الصفحات المختلفة تمامًا التي تخطط للتقدم فيها. والأسوأ من ذلك ، إذا لاحظت محركات البحث تكرار المحتوى الذي يكرهونه كثيرًا ، عندما تؤدي الروابط المختلفة إلى نفس النص أو الصورة (أو شبه متطابقة).

لذلك ، من الضروري منع عناكب محرك البحث من رؤية الكثير. هذا هو الغرض من ملف robots.txt - ملف نصي عادي ، يكتب اسمه بأحرف صغيرة دون استخدام الأحرف الكبيرة. يتم إنشاؤه في أي محرر نصوص (Notepad ++ ، SciTE ، VEdit ، إلخ) ويتم تحريره هنا. يسمح لك الملف بالتأثير على فهرسة الموقع بواسطة Yandex و Google.

بالنسبة للمبرمج الذي ليس لديه خبرة كافية بعد ، فمن الأفضل أن تتعرف أولاً على أمثلة عن الملء الصحيح للملف. تحتاج إلى تحديد موارد الويب التي تهمه ، وفي شريط عنوان المتصفح ، اكتب site.ru/robots.txt(حيث يكون الجزء الأول قبل "/" هو اسم البوابة).

من المهم عرض المواقع التي تعمل على المحرك الذي تهتم به فقط ، حيث يتم تسمية مجلدات CMS المحظورة من الفهرسة بشكل مختلف في أنظمة الإدارة المختلفة. لذلك ، يصبح المحرك نقطة البداية. إذا كان موقعك مدعومًا من WordPress ، فأنت بحاجة إلى البحث عن المدونات التي تعمل على نفس المحرك ؛ لجملة! سيكون لها الروبوتات المثالية الخاصة بها ، وما إلى ذلك. وفي الوقت نفسه ، يُنصح بأخذ الملفات من البوابات التي تجذب حركة مرور كبيرة من البحث كعينات.

ما هي فهرسة الموقع باستخدام ملف robots.txt

فهرسة البحث- أهم مؤشر يعتمد عليه نجاح الترويج إلى حد كبير. يبدو أن الموقع قد تم إنشاؤه بشكل مثالي: يتم أخذ طلبات المستخدمين في الاعتبار ، والمحتوى في المقدمة ، والتنقل مريح ، لكن الموقع لا يمكنه تكوين صداقات مع محركات البحث. يجب البحث عن الأسباب في الجانب الفني ، وتحديداً في الأدوات التي يمكنك من خلالها التأثير على الفهرسة.

يوجد اثنان منهم - ملف Sitemap.xml و robots.txt. ملفات مهمة تكمل بعضها البعض وفي نفس الوقت تحل المشاكل القطبية. يدعو ملف Sitemap العناكب إلى "مرحبًا ، يرجى فهرسة كل هذه الأقسام" من خلال إعطاء الروبوتات عنوان URL لكل صفحة ليتم فهرستها ووقت آخر تحديث لها. من ناحية أخرى ، يعمل ملف robots.txt كعلامة توقف ، حيث يمنع العناكب من الزحف عبر أي جزء من الموقع.

يحتوي هذا الملف والعلامة الوصفية لبرامج الروبوت التي تحمل اسمًا مشابهًا ، والتي تسمح بإعدادات أكثر دقة ، على إرشادات واضحة لبرامج زحف محركات البحث ، مما يشير إلى الحظر المفروض على فهرسة صفحات معينة أو أقسام كاملة.

ستؤثر الحدود المعينة بشكل صحيح بشكل أفضل على فهرسة الموقع. على الرغم من أنه لا يزال هناك هواة يعتقدون أنه من الممكن السماح للروبوتات بدراسة جميع الملفات تمامًا. لكن في هذه الحالة ، فإن عدد الصفحات التي يتم إدخالها في قاعدة بيانات محرك البحث لا يعني فهرسة عالية الجودة. لماذا تحتاج الروبوتات ، على سبيل المثال ، إلى الأجزاء الإدارية والفنية من الموقع أو صفحات الطباعة (فهي ملائمة للمستخدم ، ويتم تقديم محركات البحث كمحتوى مكرر)؟ هناك الكثير من الصفحات والملفات التي تقضي برامج الروبوت وقتًا فيها ، في الواقع ، من أجل لا شيء.

عندما يزور العنكبوت موقعك ، فإنه يبحث على الفور عن ملف robots.txt المخصص له. بعد عدم العثور على مستند أو العثور عليه بشكل غير صحيح ، يبدأ الروبوت في العمل بشكل مستقل ، وفهرسة كل شيء على التوالي وفقًا لخوارزمية معروفة له فقط. لا يبدأ بالضرورة بمحتوى جديد ترغب في إعلام المستخدمين به أولاً. في أحسن الأحوال ، ستستمر الفهرسة ببساطة ، في أسوأ الأحوال ، يمكن أن تؤدي أيضًا إلى فرض عقوبات على التكرارات.

سيؤدي وجود ملف نصي مناسب لبرامج الروبوت إلى تجنب العديد من المشكلات.

هناك ثلاث طرق لمنع فهرسة أقسام أو صفحات مورد ويب ، من نقطة إلى مستوى عالٍ:

تعد علامة noindex والسمة عناصر كود مختلفة تمامًا تخدم أغراضًا مختلفة ، لكنهما مساعدين مهمين لتحسين محركات البحث. أصبحت مسألة معالجتها بواسطة محركات البحث مسألة فلسفية تقريبًا ، ولكن تظل الحقيقة: تسمح لك noindex بإخفاء جزء من النص من الروبوتات (ليس في معايير html ، ولكنه يعمل بالتأكيد مع Yandex) ، ويحظر nofollow اتباع الارتباط وتمرير وزنه (مدرج في التصنيف القياسي ، صالح لجميع محركات البحث).
تؤثر العلامة الوصفية لبرامج الروبوت في صفحة معينة على تلك الصفحة المحددة. أدناه سوف نلقي نظرة فاحصة على كيفية الإشارة فيه إلى حظر الفهرسة واتباع الروابط الموجودة في المستند. العلامة الوصفية صالحة تمامًا ، تأخذ الأنظمة في الاعتبار (أو تحاول أن تأخذ في الاعتبار) البيانات المحددة. علاوة على ذلك ، فإن Google ، بالاختيار بين الروبوتات في شكل ملف في الدليل الجذر للموقع والعلامة الوصفية للصفحة ، يعطي الأولوية للأخير.
ملف robots.txt - هذه الطريقة صالحة تمامًا ، وهي مدعومة من قبل جميع محركات البحث والروبوتات الأخرى التي تعيش على الويب. ومع ذلك ، فإن توجيهاته لا تُعتبر دائمًا أمرًا يتم تنفيذه (قيل أعلاه حول عدم صلاحية Google). قواعد الفهرسة المحددة في الملف صالحة للموقع ككل: صفحات فردية ، أدلة ، أقسام.

باستخدام الأمثلة ، ضع في اعتبارك حظر فهرسة البوابة وأجزائها.

هناك العديد من الأسباب لمنع العناكب من فهرسة موقع ويب. لا يزال قيد التطوير ، ويتم إعادة تصميمه أو ترقيته ، والمورد عبارة عن منصة تجريبية ، وليس مخصصًا للمستخدمين.

يمكن حظر موقع من الفهرسة بواسطة ملف robots.txt لجميع محركات البحث ، أو لروبوت فردي ، أو يمكن حظره للجميع باستثناء محرك واحد.

2. كيفية تعطيل فهرسة موقع robots.txt في الصفحات الفردية

إذا كان المورد صغيرًا ، فمن غير المحتمل أن تحتاج إلى إخفاء الصفحات (ما هو موجود للاختباء في موقع بطاقة العمل) ، ولا يمكن للبوابات الكبيرة التي تحتوي على قدر كبير من معلومات الخدمة الاستغناء عن المحظورات. من الضروري أن تغلق من الروبوتات:

لوحة إدارية
أدلة الخدمة
بحث الموقع؛
المساحة الشخصية;
استمارات التسجيل؛
نماذج الطلبات؛
مقارنة البضائع
مفضلات ؛
سلة؛
رمز التحقق.
النوافذ المنبثقة واللافتات ؛
معرفات الجلسة.

الأخبار والأحداث غير ذات الصلة ، وأحداث التقويم ، والعروض الترويجية ، والعروض الخاصة - هذه هي ما يسمى بالصفحات المهملة التي يكون من الأفضل إخفاؤها. من الأفضل أيضًا إغلاق المحتوى القديم في مواقع المعلومات لمنع التصنيفات السلبية من محركات البحث. حاول الاحتفاظ بالتحديثات بشكل منتظم - فلن تضطر إلى لعب لعبة الغميضة مع محركات البحث.

حظر برامج الروبوت للفهرسة:

في ملف robots.txt ، يمكنك تسجيل حظر كامل أو انتقائي لفهرسة المجلدات والملفات والبرامج النصية وعلامات utm ، والتي يمكن أن تكون طلبًا لكل من عناكب البحث الفردية وروبوتات جميع الأنظمة.

حظر الفهرسة:

تعمل العلامة الوصفية لبرامج الروبوت كبديل للملف النصي الذي يحمل الاسم نفسه. هو مكتوب في الكود المصدري لمورد الويب (في ملف index.html) ، الموضوعة في الحاوية . من الضروري توضيح من لا يمكنه فهرسة الموقع. إذا كان الحظر عامًا ، فإن الروبوتات ؛ إذا تم رفض الدخول إلى زاحف واحد فقط ، فأنت بحاجة إلى تحديد اسمه (Google - Googlebot ، "Yandex" - Yandex).

هناك خياران لكتابة علامة وصفية.

يمكن أن تحتوي سمة "المحتوى" على القيم التالية:

لا شيء - حظر الفهرسة (بما في ذلك noindex و nofollow) ؛
noindex - حظر فهرسة المحتوى ؛
nofollow - حظر روابط الفهرسة ؛
متابعة - إذن لفهرسة الروابط ؛
الفهرس - السماح بفهرسة المحتوى ؛
الكل - السماح بفهرسة المحتوى والروابط.

إلى عن على حالات مختلفةتحتاج إلى استخدام مجموعات من القيم. على سبيل المثال ، إذا قمت بتعطيل فهرسة المحتوى ، فستحتاج إلى السماح لبرامج الروبوت بفهرسة الروابط: content = "noindex ، follow".

بإغلاق موقع الويب من محركات البحث من خلال العلامات الوصفية ، لا يحتاج المالك إلى إنشاء ملف robots.txt في الجذر.

يجب أن نتذكر أنه في مسألة الفهرسة ، يعتمد الكثير على "لطف" العنكبوت. إذا كان "متعلمًا" ، فإن القواعد التي يحددها المعلم ستكون ذات صلة. ولكن بشكل عام ، لا تعني صلاحية توجيهات برامج الروبوت (كل من الملف والعلامة الوصفية) اتباعها بنسبة مائة بالمائة. حتى بالنسبة لمحركات البحث ، ليس كل حظر صارمًا ، ولا داعي للحديث عن أنواع مختلفة من لصوص المحتوى. تم تكوينها في البداية للتحايل على جميع المحظورات.

بالإضافة إلى ذلك ، لا تهتم جميع برامج الزحف بالمحتوى. بالنسبة للبعض ، الروابط فقط هي المهمة ، بالنسبة للآخرين - الترميز المصغر ، والبعض الآخر يتحقق من النسخ المتطابقة للمواقع ، وما إلى ذلك. في الوقت نفسه ، لا تقوم عناكب النظام بالزحف حول الموقع على الإطلاق ، مثل الفيروسات ، ولكنها تطلب الصفحات الضرورية عن بُعد. لذلك ، في أغلب الأحيان لا يتسببون في أي مشاكل لأصحاب الموارد. ولكن ، في حالة حدوث أخطاء أثناء تصميم الروبوت أو ظهور بعض المواقف الخارجية غير القياسية ، يمكن للزاحف تحميل البوابة المفهرسة بشكل كبير.

الأوامر المستخدمة:

1. "وكيل المستخدم:"

المبدأ التوجيهي الرئيسي لملف robots.txt. تستخدم للمواصفات. تم إدخال اسم الروبوت ، وستتبع تعليمات إضافية بشأنه. فمثلا:

وكيل المستخدم: Googlebot- يعني التوجيه الأساسي في هذا النموذج أن جميع الأوامر التالية تتعلق فقط بروبوت الفهرسة من Google ؛
وكيل المستخدم: Yandex- الأذونات والمحظورات المقررة مخصصة لروبوت Yandex.

تسجيل وكيل المستخدم: *يعني الإشارة إلى جميع محركات البحث الأخرى (الحرف الخاص "*" يعني "أي نص"). إذا أخذنا في الاعتبار المثال أعلاه ، فستقوم العلامة النجمية بتعيين جميع محركات البحث ، باستثناء "Yandex". نظرًا لأن Google تستغني تمامًا عن الاستئناف الشخصي ، فهي راضية عن التسمية العامة "أي نص".

الأمر الأكثر شيوعًا لتعطيل الفهرسة. بالإشارة إلى الروبوت في "User-agent:" ، يشير المبرمج إلى أنه لا يسمح للبوت بفهرسة جزء من الموقع أو الموقع بأكمله (في هذه الحالة ، يُشار إلى المسار من الجذر). يتفهم عنكبوت البحث هذا عن طريق توسيع الأمر. سنكتشف ذلك أيضًا.

وكيل المستخدم: Yandex

إذا كان هناك مثل هذا الإدخال في ملف robots.txt ، فإن روبوت بحث Yandex يفهم أنه لا يمكنه فهرسة مورد الويب على هذا النحو: لا توجد توضيحات بعد علامة الحظر "/".

وكيل المستخدم: Yandex

Disallow: / wp-admin

في هذا المثال ، هناك توضيحات: حظر الفهرسة ينطبق فقط على مجلد النظام wp-admin(الموقع مدعوم من WordPress). يرى روبوت Yandex الأمر ولا يقوم بفهرسة المجلد المحدد.

وكيل المستخدم: Yandex

Disallow: / wp-content / theme

يخبر هذا التوجيه الزاحف أنه يمكنه فهرسة كل المحتوى " wp- المحتوى"، فيما عدا " الموضوعات"، وهو ما سيفعله الروبوت.

وكيل المستخدم: Yandex

Disallow: / index $

يظهر رمز مهم آخر "$" ، والذي يسمح بالمرونة في المحظورات. في هذه الحالة ، يدرك الروبوت أنه غير مسموح له بفهرسة الصفحات التي تحتوي روابطها على تسلسل الأحرف " فهرس". ملف منفصل بنفس الاسم " index.php»يمكنك الفهرسة ، والروبوت يفهم ذلك بوضوح.

يمكنك إدخال حظر على فهرسة الصفحات الفردية للمصدر ، والتي تحتوي روابطها على أحرف معينة. فمثلا:

وكيل المستخدم: Yandex

يقرأ روبوت Yandex الأمر بهذه الطريقة: لا تقم بفهرسة جميع الصفحات التي تحتوي على عناوين URL تحتوي على "&" بين أي أحرف أخرى.

وكيل المستخدم: Yandex

في هذه الحالة ، يدرك الروبوت أنه لا يمكن فهرسة الصفحات فقط إذا كانت عناوينها تنتهي بـ "&".

لماذا من المستحيل فهرسة ملفات النظام والمحفوظات والبيانات الشخصية للمستخدمين ، نعتقد أنه من الواضح - هذا ليس موضوعًا للمناقشة. ليست هناك حاجة على الإطلاق إلى روبوت بحث لإضاعة الوقت في التحقق من البيانات التي لا يحتاجها أحد. لكن فيما يتعلق بالحظر على فهرسة الصفحات ، يطرح الكثير من الناس أسئلة: ما هو سبب ملاءمة التوجيهات التحريمية؟ يمكن للمطورين ذوي الخبرة تقديم عشرات الأسباب المختلفة لفهرسة المحرمات ، ولكن السبب الرئيسي هو الحاجة إلى التخلص من الصفحات المكررة في البحث. إذا كان هناك أي شيء ، فإنه يؤثر سلبًا بشكل كبير على الترتيب والملاءمة والجوانب المهمة الأخرى. لذلك ، لا يمكن التفكير في تحسين محركات البحث الداخلية بدون ملف robots.txt ، حيث يكون من السهل جدًا التعامل مع التكرارات: تحتاج فقط إلى استخدام التوجيه "Disallow:" والأحرف الخاصة بشكل صحيح.

3. "السماح:"

يسمح لك ملف الروبوتات السحرية ليس فقط بإخفاء الأشياء غير الضرورية من محركات البحث ، ولكن أيضًا لفتح الموقع للفهرسة. يحتوي ملف robots.txt على الأمر " السماح:"، يخبر عناكب محرك البحث بعناصر مورد الويب التي يجب إضافتها إلى قاعدة البيانات. تأتي التوضيحات نفسها كما في الأمر السابق للإنقاذ ، والآن فقط يقومون بتوسيع نطاق الأذونات لبرامج الزحف.

لنأخذ أحد الأمثلة الواردة في الفقرة السابقة ونرى كيف يتغير الموقف:

وكيل المستخدم: Yandex

السماح: / wp-admin

إذا كان "Disallow:" يعني الحظر ، ثم الآن محتويات مجلد النظام wp-adminتصبح ملكًا لشركة Yandex من الناحية القانونية وقد تظهر في نتائج البحث.

لكن في الممارسة العملية ، نادرًا ما يتم استخدام هذا الأمر. هناك تفسير منطقي تمامًا لهذا: عدم وجود منع ، المشار إليه بواسطة "Disallow:" ، يسمح لعناكب البحث باعتبار الموقع بأكمله على أنه مسموح به للفهرسة. توجيه منفصل غير مطلوب لهذا الغرض. في حالة وجود محظورات ، يتم أيضًا فهرسة المحتوى الذي لا يندرج تحته بواسطة الروبوتات بشكل افتراضي.

أمرين أكثر أهمية لعناكب البحث. " مضيف:"- توجيه مستهدف لمحرك بحث محلي. يسترشد Yandex به عند تحديد المرآة الرئيسية لمورد الويب الذي سيشارك عنوانه (مع أو بدون www) في البحث.

ضع في اعتبارك مثال PR-CY.ru:

وكيل المستخدم: Yandex

يتم استخدام التوجيه لتجنب الازدواجية في محتوى الموارد.

فريق " خريطة الموقع:»يساعد الروبوتات على الانتقال بشكل صحيح إلى خريطة الموقع - ملف خاص يمثل بنية هرمية للصفحات ونوع المحتوى ومعلومات حول تكرار التحديثات وما إلى ذلك. يعمل الملف كمتصفح لعناكب البحث ملف sitemap.xml(على محرك Wordpress) ملف sitemap.xml.gz) ، والتي يحتاجون إليها في أسرع وقت ممكن. عندئذٍ ، ستعمل الفهرسة ليس فقط على تسريع خريطة الموقع ، ولكن أيضًا جميع الصفحات الأخرى التي لن تتباطأ في الظهور في نتائج البحث.

مثال افتراضي:

الأوامر المشار إليها في الملف النصي لبرامج الروبوت وقبلتها Yandex:

التوجيه	ماذا يفعل
	يسمي عنكبوت البحث الذي تمت كتابة القواعد المدرجة في الملف من أجله.
	يشير إلى منع برامج الروبوت من فهرسة الموقع أو أقسامه أو صفحاته الفردية.
	يحدد المسار إلى خريطة الموقع المستضافة على مورد الويب.
	يحتوي على المعلومات التالية عن عنكبوت البحث: يتضمن عنوان URL للصفحة معلمات غير قابلة للفهرسة (مثل علامات UTM).
	يمنح الإذن لفهرسة أقسام وصفحات مصدر الويب.
	يسمح لك بتأخير المسح. يشير إلى الحد الأدنى من الوقت (بالثواني) للزاحف بين عمليات تحميل الصفحة: بعد التحقق من واحدة ، ينتظر العنكبوت مقدار الوقت المحدد قبل طلب الصفحة التالية من القائمة.

* التوجيه المطلوب.

أوامر Disallow و Sitemap و Clean-param هي الأكثر طلبًا. لنلقي نظرة على مثال:

وكيل المستخدم: * # يشير إلى الروبوتات التي تهدف إليها الأوامر التالية.
Disallow: / bin / # منع المفهرسات من الزحف إلى الروابط من سلة التسوق.
Disallow: / search / # disallow فهرسة صفحات البحث على الموقع.
Disallow: / admin / # عدم السماح بالبحث في لوحة الإدارة.
خريطة الموقع: http://example.com/sitemap # يشير إلى المسار إلى خريطة الموقع للزاحف.
Clean-param: المرجع /some_dir/get_book.pl

تذكر أن التفسيرات المذكورة أعلاه للتوجيهات ذات صلة بـ Yandex - يمكن لعناكب محركات البحث الأخرى قراءة الأوامر بشكل مختلف.

تم إنشاء القاعدة النظرية - حان الوقت لإنشاء روبوتات ملفات نصية مثالية (جيدة ، أو قريبة جدًا منها). إذا كان الموقع يعمل على محرك (جملة! ، ووردبريس ، وما إلى ذلك) ، يتم تزويده بكتلة من العناصر ، والتي بدونها يكون التشغيل العادي مستحيلاً. لكن لا يوجد عنصر إعلامي في مثل هذه الملفات. في معظم أنظمة إدارة المحتوى ، يكون تخزين المحتوى هو قاعدة البيانات ، لكن الروبوتات لا يمكنها الوصول إليه. ويستمرون في البحث عن المحتوى في ملفات المحرك. وفقًا لذلك ، يضيع الوقت المخصص للفهرسة.

مهم جدا نسعى جاهدين للحصول على محتوى فريدمورد الويب الخاص بك , مراقبة حدوث التكرارات بعناية. حتى التكرار الجزئي لمحتوى المعلومات في الموقع ليس له أفضل تأثير على تقييمه بواسطة محركات البحث. إذا كان من الممكن العثور على نفس المحتوى في عناوين URL مختلفة ، فسيتم اعتبار هذا أيضًا مكررًا.

سيكشف محركا البحث الرئيسيان ، Yandex و Google ، حتمًا عن الازدواجية أثناء الزحف ويخفضان بشكل مصطنع موضع مورد الويب في نتائج البحث.

لا تنسى أداة رائعة لمساعدتك في التعامل مع الازدواجية - العلامة الوصفية المتعارف عليها. من خلال كتابة عنوان URL مختلف فيه ، يشير مشرف الموقع إلى عنكبوت البحث إلى الصفحة المفضلة للفهرسة ، والتي ستكون الصفحة الأساسية.

على سبيل المثال ، تحتوي الصفحة ذات الصفحات الفاصلة للصفحات https://ktonanovenkogo.ru/page/2 على العلامة الوصفية Canonical التي تشير إلى https://ktonanovenkogo.ru ، والتي تحل المشكلات المتعلقة بالعناوين المكررة.

لذلك ، قمنا بتجميع كل المعرفة النظرية التي تم الحصول عليها والمضي قدمًا في تنفيذها العملي في ملف robots.txt لمورد الويب الخاص بك ، والتي يجب أن تؤخذ تفاصيلها في الاعتبار. ما هو مطلوب لهذا الملف المهم:

محرر نصوص (Notepad أو أي برنامج آخر) لكتابة وتحرير الروبوتات ؛
أحد المختبرين الذي سيساعد في العثور على أخطاء في المستند الذي تم إنشاؤه والتحقق من صحة عمليات حظر الفهرسة (على سبيل المثال ، Yandex.Webmaster) ؛
عميل FTP يبسط عملية تحميل ملف مكتمل وتم التحقق منه إلى جذر مورد ويب (إذا كان الموقع يعمل على WordPress ، فغالبًا ما يتم تخزين الروبوتات في مجلد النظام Public_html).

أول شيء يفعله زاحف البحث هو طلب ملف تم إنشاؤه خصيصًا له والموجود في عنوان URL "/robots.txt".

يمكن أن يحتوي مورد الويب على ملف واحد "/robots.txt". لا حاجة لوضعه في أدلة فرعية مخصصة حيث لن تبحث العناكب عن المستند على أي حال. إذا كنت تريد إنشاء روبوتات في أدلة فرعية ، فعليك أن تتذكر أنك لا تزال بحاجة إلى تجميعها في ملف واحد في المجلد الجذر. يعد استخدام العلامة الوصفية "برامج الروبوت" أكثر ملاءمة.

تعتبر عناوين URL حساسة لحالة الأحرف - تذكر أن "/robots.txt" لم يتم كتابته بأحرف كبيرة.

أنت الآن بحاجة إلى التحلي بالصبر وانتظار عناكب البحث ، التي ستقوم أولاً بدراسة ملف robots.txt الذي تم إنشاؤه بشكل صحيح ، وتصحيح ملف robots.txt والبدء في الزحف إلى مدخل الويب الخاص بك.

الإعداد الصحيح لملف robots.txt لفهرسة المواقع على محركات مختلفة

إذا كان لديك مورد تجاري ، فيجب أن يُعهد بإنشاء ملف الروبوتات إلى أخصائي تحسين محركات البحث ذي الخبرة. هذا مهم بشكل خاص إذا كان المشروع معقدًا. بالنسبة لأولئك غير المستعدين لقبول ما قيل من أجل بديهية ، دعنا نوضح: هذا الملف النصي المهم له تأثير خطير على فهرسة المورد بواسطة محركات البحث ، وسرعة معالجة الموقع بواسطة الروبوتات تعتمد على صحتها. ، ومحتوى الروبوتات له خصائصه الخاصة. يحتاج المطور إلى مراعاة نوع الموقع (مدونة ، متجر على الإنترنت ، إلخ) ، والمحرك ، والميزات الهيكلية والجوانب المهمة الأخرى التي قد لا يتمكن المبتدئ الرئيسي من القيام بها.

في الوقت نفسه ، تحتاج إلى اتخاذ أهم القرارات: ما يجب إغلاقه من الزحف ، وما يجب تركه مرئيًا لبرامج الزحف حتى تظهر الصفحات في البحث. سيكون من الصعب جدًا على مُحسنات محركات البحث عديم الخبرة التعامل مع هذا الحجم من العمل.

وكيل المستخدم:* # قواعد عامةللروبوتات ، باستثناء "Yandex" و Google ،

Disallow: مجلد الاستضافة / cgi-bin #
عدم السماح: /؟ # جميع معلمات الاستعلام على المستوى الرئيسي
Disallow: / wp- # all WP files: / wp-json /، / wp-include، / wp-content / plugins
Disallow: / wp / # إذا كان هناك دليل فرعي / wp / حيث تم تثبيت CMS (إذا لم يكن الأمر كذلك ، فيمكن إزالة القاعدة #)
Disallow: *؟ s = # بحث
Disallow: * & s = # بحث
Disallow: / search / # search
Disallow: / author / # archivist
Disallow: / users / # archivers
Disallow: * / trackback # trackbacks ، إشعارات في التعليقات حول رابط # مفتوح لمقال
Disallow: * / feed # all feeds. عدم السماح: * / feed # all feeds
Disallow: * / rss # rssfeed
Disallow: * / embed # all embeds
Disallow: * / wlwmanifest.xml # ملف Windows Live Writer manifest xml (يمكن إزالته إذا لم يتم استخدامه)
Disallow: ملف /xmlrpc.php # WordPress API
Disallow: * utm * = # روابط بعلامات utm
Disallow: * openstat = # linksopenstat ذات علامات
Allow: * / uploads # مجلد مفتوح مع ملفات الرفع
خريطة الموقع: http://site.ru/sitemap.xml # عنوان خريطة الموقع

وكيل المستخدم: GoogleBot & # rules for Google

Disallow: / cgi-bin

عدم السماح: / wp-
عدم السماح: / wp /
عدم السماح: *؟ s =
عدم السماح: * & s =
Disallow: / بحث /
Disallow: / author /
Disallow: / المستخدمين /
عدم السماح: * / تعقيب
عدم السماح: * / تغذية
عدم السماح: * / rss
عدم السماح: * / embed
Disallow: * / wlwmanifest.xml
Disallow: /xmlrpc.php
عدم السماح: * utm * =
Disallow: * openstat =
Allow: * / uploadsAllow: /*/*.js # open js scripts داخل / wp- (/ * / - للأولوية)
Allow: /*/*.css # open css files inside / wp- (/ * / - للأولوية)
Allow: /wp-*.png # images in plugins، cache folder، إلخ.
Allow: /wp-*.jpg # صور في المكونات الإضافية ، مجلد ذاكرة التخزين المؤقت ، إلخ.
Allow: /wp-*.jpeg # pictures in plugins، cache folder، إلخ.
Allow: /wp-*.gif # pictures in plugins، cache folder، إلخ.
Allow: /wp-admin/admin-ajax.php # تستخدمه المكونات الإضافية لعدم حظر JS و CSS

وكيل المستخدم: Yandex # rules for Yandex

Disallow: / cgi-bin

عدم السماح: / wp-
عدم السماح: / wp /
عدم السماح: *؟ s =
عدم السماح: * & s =
Disallow: / بحث /
Disallow: / author /
Disallow: / المستخدمين /
عدم السماح: * / تعقيب
عدم السماح: * / تغذية
عدم السماح: * / rss
عدم السماح: * / embed
Disallow: * / wlwmanifest.xml
Disallow: /xmlrpc.php
السماح: * / تحميلات
السماح: /*/*.js
السماح: /*/*.css
Allow: /wp-*.png
السماح: /wp-*.jpg
السماح: /wp-*.jpeg
السماح: /wp-*.gif
السماح: /wp-admin/admin-ajax.php
Clean-Param: utm_source & utm_medium & utm_campaign # يوصي Yandex بعدم إغلاق # من الفهرسة ، ولكن بحذف معلمات العلامات ، # لا تدعم Google مثل هذه القواعد
Clean-Param: openstat # مشابه

وكيل المستخدم: *
Disallow: / المسؤول /
Disallow: / cache /
عدم السماح: / يشمل /
Disallow: / التثبيت /
Disallow: / لغة /
Disallow: / مكتبات /
Disallow: / media /
Disallow: / وحدات /
Disallow: / المكونات الإضافية /
Disallow: / قوالب /
Disallow: / tmp /
Disallow: / xmlrpc /
خريطة الموقع: http: // مسار خريطة موقع XML

وكيل المستخدم: *
Disallow: /*index.php$
Disallow: / bitrix /
Disallow: / auth /
Disallow: / شخصي /
Disallow: / تحميل /
Disallow: / بحث /
عدم السماح: / * / بحث /
Disallow: / * / slide_show /
عدم السماح: / * / معرض / * الطلب = *
Disallow: / *؟ print =
عدم السماح: / * & print =
عدم السماح: / * تسجيل =
عدم السماح: / * نسيت كلمة المرور =
عدم السماح: / * change_password =
عدم السماح: / * تسجيل الدخول =
عدم السماح: / * تسجيل الخروج =
عدم السماح: / * المصادقة =
Disallow: / *؟ action =
عدم السماح: / * الإجراء = ADD_TO_COMPARE_LIST
عدم السماح: / * الإجراء = DELETE_FROM_COMPARE_LIST
عدم السماح: / * الإجراء = ADD2BASKET
عدم السماح: / * الإجراء = الشراء
عدم السماح: / * bitrix _ * =
عدم السماح: / * backurl = *
عدم السماح: / * BACKURL = *
عدم السماح: / * back_url = *
عدم السماح: / * BACK_URL = *
عدم السماح: / * back_url_admin = *
عدم السماح: / * print_course = Y
عدم السماح: / * COURSE_ID =
عدم السماح: / *؟ COURSE_ID =
Disallow: / *؟ PAGEN
عدم السماح: / * PAGEN_1 =
عدم السماح: / * PAGEN_2 =
عدم السماح: / * PAGEN_3 =
عدم السماح: / * PAGEN_4 =
عدم السماح: / * PAGEN_5 =
عدم السماح: / * PAGEN_6 =
عدم السماح: / * PAGEN_7 =

عدم السماح: / * PAGE_NAME = بحث
عدم السماح: / * PAGE_NAME = user_post
عدم السماح: / * PAGE_NAME = عرض التفاصيل
عدم السماح: / * إظهار
عدم السماح: / * show_all =
خريطة الموقع: http: // مسار خريطة موقع XML

وكيل المستخدم: *
Disallow: / الأصول / ذاكرة التخزين المؤقت /
Disallow: / الأصول / المستندات /
Disallow: / الأصول / التصدير /
Disallow: / الأصول / الاستيراد /
Disallow: / الأصول / الوحدات /
Disallow: / الأصول / المكونات الإضافية /
Disallow: / الأصول / المقتطفات /
Disallow: / تثبيت /
Disallow: / manager /
خريطة الموقع: http://site.ru/sitemap.xml

5. Robots.txt ، مثال على دروبال

وكيل المستخدم: *
Disallow: / قاعدة البيانات /
عدم السماح: / يشمل /
Disallow: / متفرقات /
Disallow: / وحدات /
Disallow: / sites /
Disallow: / الموضوعات /
Disallow: / scripts /
Disallow: / التحديثات /
عدم السماح: / ملفات التعريف /
عدم السماح: / الملف الشخصي
عدم السماح: / الملف الشخصي / *
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
عدم السماح: / admin /
Disallow: / تعليق / رد /
Disallow: / contact /
عدم السماح: / تسجيل الخروج /
Disallow: / بحث /
عدم السماح: / مستخدم / تسجيل /
Disallow: / المستخدم / كلمة المرور /
عدم السماح: * تسجيل *
عدم السماح: * تسجيل الدخول *
Disallow: / أعلى تصنيف-
Disallow: / messages / عدم السماح
Disallow: / book / export /
Disallow: / user2userpoints /
Disallow: / myuserpoints /
Disallow: / tagadelic /
Disallow: / إحالة /
Disallow: / مجمِّع /
عدم السماح: / files / pin /
Disallow: / your-votes
Disallow: / comments / recent
عدم السماح: / * / تحرير /
عدم السماح: / * / delete /
عدم السماح: / * / export / html /
Disallow: / التصنيف / term / * / 0 $
Disallow: / * / تحرير $
Disallow: / * / outline $
Disallow: / * / revisions $
Disallow: / * / contact $
عدم السماح: / * downloadpipe
Disallow: / عقدة $
Disallow: / node / * / track $

Disallow: / *؟ page = 0
عدم السماح: / * القسم
عدم السماح: / * الطلب
Disallow: / *؟ sort *
عدم السماح: / * & رتب *
Disallow: / * votesupdown
عدم السماح: / * التقويم
Disallow: /*index.php
السماح: / *؟ page =

خريطة الموقع: http: // المسار إلى خريطة موقع XML

الانتباه!يتم تحديث أنظمة إدارة محتوى الموقع باستمرار ، لذلك قد يتغير ملف الروبوتات أيضًا: قد يتم إغلاق صفحات أو مجموعات ملفات إضافية ، أو على العكس من ذلك ، فتحها للفهرسة. يعتمد ذلك على أهداف مورد الويب ويتغير المحرك الحالي.

7 أخطاء شائعة عند فهرسة موقع باستخدام ملف robots.txt

تؤدي الأخطاء التي حدثت أثناء إنشاء الملف إلى عمل ملف robots.txt بشكل غير صحيح أو حتى يؤدي إلى استحالة عمل الملف.

ما هي الأخطاء المحتملة:

منطقي (تتعارض القواعد المميزة). يمكنك تحديد هذا النوع من الأخطاء أثناء الاختبار في Yandex.Webmaster و GoogleRobotsTestingTool.
نحوي (التوجيهات مكتوبة مع أخطاء).

أكثر شيوعًا من غيرها هي:

السجل ليس حساسًا لحالة الأحرف ؛
تستخدم الأحرف الكبيرة ؛
يتم سرد جميع القواعد في سطر واحد ؛
لا يتم فصل القواعد بسطر فارغ ؛
تحديد الزاحف في التوجيه ؛
يتم سرد كل ملف في المجلد الذي يجب إغلاقه بشكل منفصل ؛
توجيه Disallow الإلزامي مفقود.

انصح الأخطاء الشائعة، وعواقبها ، والأهم من ذلك ، تدابير منعها على مورد الويب الخاص بك.

مكان الملف.يجب أن يكون عنوان URL للملف بالشكل التالي: http://site.ru/robots.txt (بدلاً من site.ru ، يتم إدراج عنوان موقعك). يستند ملف robots.txt بشكل حصري إلى المجلد الجذر للمورد - وإلا فلن تراه عناكب البحث. دون أن يتم حظرهم ، سيقومون بالزحف إلى الموقع بأكمله وحتى تلك الملفات والمجلدات التي تريد إخفاءها من نتائج البحث.
حساسية الموضوع.لا توجد أحرف كبيرة. http://site.ru/Robots.txt خطأ. في هذه الحالة ، سيتلقى روبوت محرك البحث 404 (صفحة خطأ) أو 301 (إعادة توجيه) كاستجابة للخادم. سيتم الزحف دون مراعاة التوجيهات المشار إليها في برامج الروبوت. إذا تم كل شيء بشكل صحيح ، فإن استجابة الخادم هي الرمز 200 ، حيث سيتمكن مالك المورد من التحكم في متتبع ارتباطات البحث. الخيار الصحيح الوحيد هو "ملف robots.txt".
فتح في صفحة المتصفح.لن تتمكن عناكب البحث من قراءة واستخدام توجيهات ملف robots.txt بشكل صحيح إلا إذا تم فتحه في صفحة متصفح. من المهم الانتباه إلى جانب الخادم للمحرك. في بعض الأحيان يتم تقديم ملف من هذا النوع للتنزيل. ثم يجب عليك إعداد العرض - وإلا فإن الروبوتات ستزحف إلى الموقع كما يحلو لها.
أخطاء الحظر والإذن."عدم السماح" - توجيه لمنع مسح الموقع أو أقسامه. على سبيل المثال ، تحتاج إلى منع برامج الروبوت من فهرسة الصفحات مع نتائج البحث على الموقع. في هذه الحالة ، يجب أن يحتوي ملف robots.txt على السطر: "Disallow: / search /". يتفهم الزاحف أن جميع الصفحات التي يحدث فيها "بحث" محظورة من الزحف. مع الحظر التام على الفهرسة ، يتم كتابة Disallow: /. لكن توجيه السماح "سماح" ليس ضروريًا في هذه الحالة. على الرغم من أنه ليس من غير المألوف كتابة أمر مثل هذا: "Allow:" ، بافتراض أن الروبوت سوف يدرك هذا على أنه إذن لفهرسة "لا شيء". يمكنك السماح بفهرسة الموقع بالكامل من خلال التوجيه "Allow: /". ليست هناك حاجة للتشويش على الأوامر. يؤدي هذا إلى أخطاء الزحف بواسطة العناكب ، والتي تضيف في النهاية صفحات ليست هي الصفحات التي يجب الترويج لها.
مباراة توجيهية. Disallow: and Allow: للصفحة نفسها توجد في برامج الروبوت ، مما يجعل برامج الزحف تعطي الأولوية لتوجيه allow. على سبيل المثال ، تم فتح القسم في البداية للزحف بواسطة العناكب. ثم ، لسبب ما ، تقرر إخفاؤه من الفهرس. بطبيعة الحال ، تتم إضافة حظر إلى ملف robots.txt ، لكن مشرف الموقع ينسى إزالة الإذن. بالنسبة لمحركات البحث ، فإن الحظر ليس مهمًا للغاية: فهم يفضلون فهرسة الصفحة متجاوزة الأوامر التي تستبعد بعضها البعض.
توجيه المضيف:.تتعرف عليها العناكب Yandex فقط وتستخدم لتحديد المرآة الرئيسية. أمر مفيد ، ولكن للأسف يبدو أنه خاطئ أو غير معروف لجميع محركات البحث الأخرى. عند تضمينه في الروبوتات الخاصة بك ، من الأفضل تحديده كوكيل مستخدم: الجميع وروبوت Yandex ، حيث يمكنك تسجيل أمر المضيف شخصيًا:
وكيل المستخدم: Yandex
المضيف: site.ru

سيتم اعتبار التوجيه الموصوف لجميع برامج الزحف على أنه خاطئ.
توجيه ملف Sitemap :.بمساعدة خريطة الموقع ، تكتشف برامج الروبوت الصفحات الموجودة على مورد الويب. من الأخطاء الشائعة جدًا عدم اهتمام المطورين بموقع ملف sitemap.xml ، على الرغم من أنه يحدد قائمة عناوين URL المضمنة في الخريطة. من خلال وضع الملف خارج المجلد الجذر ، يعرض المطورون أنفسهم الموقع للخطر: تحدد برامج الزحف بشكل غير صحيح عدد الصفحات ، ونتيجة لذلك ، لا يتم تضمين أجزاء مهمة من مورد الويب في نتائج البحث.

على سبيل المثال ، من خلال وضع ملف Sitemap في دليل على عنوان URL http://primer.ru/catalog/sitemap.xml ، يمكنك تضمين أي عناوين URL تبدأ بـ http://primer.ru/catalog/ ... وعناوين URL مثل ، على سبيل المثال ، http://primer.ru/images/ ... لا ينبغي إدراجها في القائمة.

لخص. إذا أراد مالك الموقع التأثير في عملية فهرسة مورد ويب بواسطة روبوتات البحث ، فإن ملف robots.txt له أهمية خاصة. من الضروري التحقق بعناية من المستند الذي تم إنشاؤه بحثًا عن الأخطاء المنطقية والنحوية ، بحيث تعمل التوجيهات في النهاية من أجل النجاح الشامل لموقعك ، مما يضمن فهرسة عالية الجودة وسريعة.

كيفية تجنب الأخطاء عن طريق إنشاء بنية robots.txt الصحيحة لفهرسة الموقع

هيكل ملف robots.txt واضح وبسيط ، من الممكن تمامًا كتابة الملف بنفسك. كل ما تحتاجه هو مراقبة بناء الجملة بعناية وهو أمر مهم للغاية بالنسبة للروبوتات. تتبع روبوتات البحث توجيهات المستند طواعية ، لكن محركات البحث تفسر بناء الجملة بشكل مختلف.

ستساعد قائمة القواعد الإلزامية التالية في التخلص من الأخطاء الأكثر شيوعًا عند إنشاء ملف robots.txt. لكتابة المستند الصحيح ، يجب أن تتذكر ما يلي:

كل توجيه يبدأ بـ خط جديد;
في سطر واحد - ليس أكثر من أمر واحد ؛
لا يمكن وضع مسافة في بداية السطر ؛
يجب أن تكون معلمة الأمر في سطر واحد ؛
لا يلزم ذكر المعلمات التوجيهية ؛
معلمات الأمر لا تتطلب فاصلة منقوطة في النهاية ؛
التوجيه في ملف robots.txt محدد بالتنسيق: [اسم_الأمر]: [مسافة اختيارية] [قيمة] [مسافة اختيارية]؛
بعد علامة الجنيه ، يُسمح بتعليقات # في ملف robots.txt ؛
يمكن تفسير سلسلة فارغة على أنها نهاية أمر User-agent ؛
أمر المنع بقيمة فارغة - "Disallow:" مشابه للتوجيه "Allow: /" الذي يسمح بفحص الموقع بأكمله ؛
لا يمكن أن تحتوي أوامر "Allow" و "Disallow" على أكثر من معلمة واحدة. تتم كتابة كل معلمة جديدة في سطر جديد ؛
يتم استخدام الأحرف الصغيرة فقط في اسم ملف robots.txt. Robots.txt أو ROBOTS.TXT - هجاء خاطئ ؛
لا ينظم معيار robots.txt حساسية حالة الأحرف ، ولكن غالبًا ما تكون الملفات والمجلدات حساسة في هذا الشأن. لذلك ، على الرغم من أنه من المقبول استخدام الأحرف الكبيرة في أسماء الأوامر والمعلمات ، فإن هذا يعتبر شكلاً سيئًا. من الأفضل عدم الانغماس في الأحرف الكبيرة ؛
عندما تكون معلمة الأمر مجلدًا ، يلزم وجود شرطة مائلة "/" قبل الاسم ، على سبيل المثال: Disallow: / category؛
إذا كان حجم ملف robots.txt يزيد عن 32 كيلوبايت ، فإن روبوتات البحث تعتبره مكافئًا لـ "Disallow:" وتعتبره يسمح بالفهرسة تمامًا ؛
عدم توفر ملف robots.txt (بواسطة أسباب مختلفة) يمكن أن ينظر إليه الزاحف على أنه عدم وجود حظر على المسح ؛
يعتبر ملف robots.txt الفارغ على أنه يسمح بفهرسة الموقع ككل ؛
إذا تم إدراج عدة أوامر "User-agent" دون وجود سطر فارغ بينها ، فقد تتعامل عناكب البحث مع التوجيه الأول باعتباره التوجيه الوحيد ، متجاهلة جميع توجيهات "User-agent" اللاحقة ؛
لا يسمح ملف robots.txt باستخدام أي رموز للأبجديات الوطنية.

القواعد المذكورة أعلاه ليست ذات صلة بجميع محركات البحث ، لأنها تفسر بنية ملف robots.txt بشكل مختلف. على سبيل المثال ، تختار "Yandex" الإدخالات من خلال التواجد في سطر "User-agent" ، لذلك لا يهم وجود سطر فارغ بين توجيهات "User-agent" المختلفة.

بشكل عام ، يجب أن تحتوي الروبوتات فقط على ما هو مطلوب حقًا للفهرسة المناسبة. لا حاجة لمحاولة احتضان الضخامة وتناسب الحد الأقصى من البيانات في المستند. أفضل ملف robots.txt هو ملف ذو معنى ، ولا يهم عدد الأسطر.

يجب فحص روبوتات المستندات النصية من أجل الهيكل الصحيح وبناء الجملة الصحيح ، مما سيساعد الخدمات المقدمة على الويب. للقيام بذلك ، تحتاج إلى تحميل ملف robots.txt إلى المجلد الجذر لموقعك ، وإلا فقد تقوم الخدمة بالإبلاغ عن عدم قدرتها على تحميل المستند المطلوب. قبل أن يوصى بملف robots.txt للتحقق من التوفر على عنوان الملف (your_site.ru/robots.txt).

تقدم أكبر محركات البحث Yandex و Google خدمات تحليل مواقع الويب إلى مشرفي المواقع. أحد جوانب العمل التحليلي هو فحص الروبوتات:

يمكنك التحقق من الملف في Yandex.Webmaster على http://webmaster.yandex.ru/robots.xml.
على Google ، توجد أدوات التحقق في https://www.google.com/webmasters/tools/siteoverview؟hl=ru.

يوجد الكثير من أدوات التحقق من ملفات robots.txt عبر الإنترنت على الإنترنت ، ويمكنك اختيار أي واحد تريده.

Array (=> 24 [~ ID] => 24 => 10.10.2019 18:52:28 [~ TIMESTAMP_X] => 10.10.2019 18:52:28 => 1 [~ MODIFIED_BY] => 1 => 10.10. 2019 18:51:03 [~ DATE_CREATE] => 10/10/2019 18:51:03 => 1 [~ CREATED_BY] => 1 => 6 [~ IBLOCK_ID] => 6 => [~ IBLOCK_SECTION_ID] => => Y [~ ACTIVE] => Y => Y [~ GLOBAL_ACTIVE] => Y => 500 [~ SORT] => 500 => مقالات بقلم بافيل بوبيليف [~ NAME] => مقالات بقلم بافيل بوبيليف => 11744 [ ~ PICTURE] => 11744 => 13 [~ LEFT_MARGIN] => 13 => 14 [~ RIGHT_MARGIN] => 14 => 1 [~ DEPTH_LEVEL] => 1 => بافل بوبيليف [~ الوصف] => بافل بوبيليف => text [~ DESCRIPTION_TYPE] => text => مقالات بقلم بافيل بوبيليف بافيل بوبيليف [~ SEARCHABLE_CONTENT] => مقالات بقلم بافيل بوبيليف بافل بوبيليف => stati-pavla-bobyleva [~ CODE] => stati-pavla-bobyleva => [~ XML_ID] => => [~ TMP_ID] => => [~ DETAIL_PICTURE] => => [~ SOCNET_GROUP_ID] => => /blog/index.php؟ID=6 [~ LIST_PAGE_URL] => / blog / index .php؟ ID = 6 => /blog/list.php؟SECTION_ID=24 [~ SECTION_PAGE_URL] => / ب log / list.php؟ SECTION_ID = 24 => مدونة [~ IBLOCK_TYPE_ID] => blog => blog [~ IBLOCK_CODE] => blog => [~ IBLOCK_EXTERNAL_ID] => => [~ EXTERNAL_ID] =>)

ملف robots.txt عبارة عن مجموعة من التوجيهات (مجموعة قواعد للروبوتات) يمكنك من خلالها منع أو السماح لروبوتات البحث بفهرسة أقسام وملفات معينة في موقعك ، بالإضافة إلى تقديم معلومات إضافية. في البداية ، بمساعدة ملف robots.txt ، كان من الممكن حقًا فقط حظر فهرسة الأقسام ، وظهرت القدرة على السماح بالفهرسة لاحقًا ، وتم تقديمها من قبل رواد البحث Yandex و Google.

هيكل ملف robots.txt

أولاً ، تمت كتابة توجيه وكيل المستخدم ، والذي يوضح أي زاحف تشير إليه الإرشادات.

قائمة صغيرة بوكلاء المستخدم المعروفين وشائع الاستخدام:

وكيل المستخدم:*
وكيل المستخدم: Yandex
وكيل المستخدم: Googlebot
وكيل المستخدم: Bingbot
وكيل المستخدم: YandexImages
وكيل المستخدم: Mail.RU

بعد ذلك ، تم تحديد الأمرين Disallow و Allow ، اللذين يحظران أو يسمحان بفهرسة الأقسام أو الصفحات الفردية من الموقع أو الملفات ، على التوالي. ثم نكرر هذه الخطوات مع وكيل المستخدم التالي. في نهاية الملف ، يتم تحديد توجيه ملف Sitemap ، حيث يتم تحديد عنوان ملف Sitemap الخاص بك.

من خلال كتابة الأمرين Disallow و Allow ، يمكنك استخدام الأحرف الخاصة * و $. هنا * تعني "أي حرف" و $ تعني "نهاية السطر". على سبيل المثال ، Disallow: /admin/*.php يعني أن فهرسة جميع الملفات الموجودة في مجلد المسؤول وتنتهي بـ .php محظورة ، بينما يحظر Disallow: / admin $ عنوان / admin ، لكنه لا يمنع / admin. php أو / admin / new / إن وجد.

إذا استخدم جميع وكلاء المستخدم نفس مجموعة التوجيهات ، فلا داعي لتكرار هذه المعلومات لكل منهم ، وسيكفي User-agent: *. في الحالة التي يكون فيها من الضروري استكمال المعلومات لبعض وكيل المستخدم ، يجب عليك تكرار المعلومات وإضافة واحدة جديدة.

مثال لملف robots.txt لـ WordPress:

* ملاحظة لوكيل المستخدم: Yandex

تحقق من ملف robots.txt

الإصدار القديم من Search Console

للتحقق من صحة ملف robots.txt ، يمكنك استخدام مشرف الموقع من جوجل- يجب أن تذهب إلى قسم "Scanning" ثم "View as Googlebot" ، ثم انقر على زر "Get and display". نتيجة الفحص ، سيتم تقديم لقطتي شاشة للموقع ، والتي توضح كيف يرى المستخدمون الموقع وكيف يراه روبوتات البحث. وفيما يلي قائمة بالملفات التي يمنع حظر فهرستها القراءة الصحيحة لموقعك عن طريق روبوتات البحث (يجب السماح لها بالفهرسة لروبوت Google).

عادة يمكن أن تكون هذه ملفات أنماط مختلفة (css) ، وجافا سكريبت ، وكذلك صور. بعد السماح لهذه الملفات بالفهرسة ، يجب أن تكون كلتا لقطات الشاشة في Webmaster متطابقة. الاستثناءات هي الملفات الموجودة عن بعد ، على سبيل المثال ، أزرار البرنامج النصي Yandex.Metrica الشبكات الاجتماعيةإلخ. لن تكون قادرًا على منعها / السماح لها بالفهرسة. لمزيد من المعلومات حول كيفية حل الخطأ "يتعذر على Googlebot الوصول إلى ملفات CSS و JS على الموقع" ، اقرأ مدونتنا.

إصدار جديد من Search Console

في نسخة جديدةلا يوجد عنصر قائمة منفصل للتحقق من ملف robots.txt. الآن يكفي فقط إدخال عنوان البلد المطلوب في شريط البحث.

في النافذة التالية ، انقر على "فحص الصفحة الممسوحة ضوئيًا".

في النافذة التي تظهر ، يمكنك رؤية الموارد التي ، لسبب أو لآخر ، لا يمكن الوصول إليها من خلال google robot. في هذا المثال بالذات ، لا توجد موارد محظورة بواسطة ملف robots.txt.

إذا كانت هناك مثل هذه الموارد ، فسترى رسائل مثل ما يلي:

يحتوي كل موقع على ملف robots.txt فريد ، ولكن يوجد بعض السمات المشتركةيمكن سردها على النحو التالي:

أغلق صفحات التفويض وصفحات التسجيل من الفهرسة وتذكر كلمة المرور والصفحات الفنية الأخرى.
لوحة إدارة الموارد.
فرز الصفحات وصفحات من نوع عرض المعلومات على الموقع.
لصفحات عربة التسوق عبر الإنترنت ، المفضلة. يمكنك قراءة المزيد من التفاصيل في نصائح للمتاجر عبر الإنترنت حول إعدادات الفهرسة على مدونة Yandex.
صفحة البحث.

هذه مجرد قائمة تقريبية لما يمكن إغلاقه من الفهرسة من روبوتات محرك البحث. في كل حالة ، يجب أن تفهم على أساس فردي ، في بعض الحالات قد تكون هناك استثناءات للقواعد.

استنتاج

يعد ملف robots.txt أداة مهمة لتنظيم العلاقة بين الموقع وروبوت محرك البحث ، فمن المهم أن تأخذ الوقت الكافي لإعداده.

في المقالة عدد كبير منالمعلومات مخصصة لروبوتات Yandex و Google ، لكن هذا لا يعني أنك بحاجة إلى إنشاء ملف لهم فقط. هناك روبوتات أخرى - Bing و Mail.ru وما إلى ذلك. يمكنك استكمال ملف robots.txt بإرشادات خاصة بهم.

تنشئ العديد من أنظمة CMS الحديثة ملف robots.txt تلقائيًا وقد تحتوي على توجيهات قديمة. لذلك ، بعد قراءة هذه المقالة ، أوصي بالتحقق من ملف robots.txt على موقعك ، وإذا كانت موجودة هناك ، فمن المستحسن حذفها. إذا كنت لا تعرف كيفية القيام بذلك ، فيرجى الاتصال بـ

يعد ملف robots.txt الخاص بـ Wordpress أحد الأدوات الرئيسية لإعداد الفهرسة. تحدثنا سابقًا عن تسريع عملية فهرسة المقالات وتحسينها. علاوة على ذلك ، اعتبروا هذه المسألة كما لو أن روبوت البحث لا يعرف ولا يمكنه فعل أي شيء. وعلينا إخباره. لهذا استخدمنا ملف خريطة الموقع.

ربما ما زلت لا تعرف كيف يقوم روبوت البحث بفهرسة موقعك؟ افتراضيًا ، يُسمح بفهرسة كل شيء. لكنه لا يفعل ذلك على الفور. الروبوت ، بعد أن تلقى إشارة بأنه من الضروري زيارة الموقع ، يضعه في قائمة انتظار. لذلك ، لا تتم الفهرسة فورًا بناءً على طلبنا ، ولكن بعد مرور بعض الوقت. بمجرد أن يحين دور موقعك ، يكون هذا الروبوت العنكبوتي هناك. أولا وقبل كل شيء ، يبحث عن ملف robots.txt.

إذا تم العثور على ملف robots.txt ، فإنه يقرأ جميع التوجيهات ويرى عنوان الملف في النهاية. بعد ذلك ، يتخطى الروبوت ، وفقًا لخريطة الموقع ، جميع المواد المتوفرة للفهرسة. يقوم بذلك في غضون فترة زمنية محدودة. لهذا السبب ، إذا أنشأت موقعًا من عدة آلاف من الصفحات ونشرته بالكامل ، فلن يكون لدى الروبوت ببساطة الوقت الكافي للتنقل بين جميع الصفحات دفعة واحدة. ولن يدخل الفهرس سوى من تمكن من مشاهدته. والروبوت يمشي في جميع أنحاء الموقع ويقضي وقته فيه. وليست حقيقة أنه في المقام الأول سيشاهد بالضبط تلك الصفحات التي تنتظرها في نتائج البحث.

إذا لم يعثر الروبوت على ملف robots.txt ، فإنه يعتبر أنه يُسمح بفهرسة كل شيء. ويبدأ في البحث في جميع الشوارع الخلفية. بعد عمل نسخة كاملة من كل ما يمكنه العثور عليه ، يغادر موقعك حتى المرة القادمة. كما تفهم ، بعد هذا البحث ، كل ما هو مطلوب وكل ما هو غير مطلوب يدخل في قاعدة فهرس محرك البحث. ما تحتاج إلى معرفته هو مقالاتك وصفحاتك وصورك ومقاطع الفيديو الخاصة بك ، إلخ. لماذا لا تحتاج إلى الفهرسة؟

بالنسبة إلى WordPress ، اتضح أن هذه مشكلة مهمة للغاية. تؤثر الإجابة عليه في كل من تسريع فهرسة محتوى موقعك وأمانه. النقطة هي أن كل شيء معلومات الخدمةلا حاجة للفهرسة. ومن المستحسن عمومًا إخفاء ملفات WordPress عن أعين المتطفلين. سيؤدي هذا إلى تقليل فرصة اختراق موقعك.

ينشئ WordPress الكثير من نسخ مقالاتك بعناوين URL مختلفة ولكن بنفس المحتوى. تبدو هكذا:

// site_name / article_name ،

// site_name / category_name / article_name ،

// site_name / العنوان_name / subheading_name / article_name ،

// site_name / tag_name / article_name ،

// site_name / archive_creation_date / article_name

مع العلامات والمحفوظات في الحرس العام. كم عدد العلامات التي يتم إرفاق مقال بها ، يتم إنشاء العديد من النسخ. عند تحرير مقال ، سيتم إنشاء العديد من الأرشيفات في تواريخ مختلفة ، حيث ستظهر العديد من العناوين الجديدة ذات المحتوى المتشابه تقريبًا. وهناك أيضًا نسخ من المقالات مع عناوين لكل تعليق. انها مجرد مروعة.

يتم تقييم عدد كبير من محركات البحث المكررة كموقع سيء. إذا تمت فهرسة جميع هذه النسخ وتم توفيرها في البحث ، فسيتم توزيع وزن المقال الرئيسي على جميع النسخ ، وهو أمر سيئ للغاية. وليس حقيقة أن المقال الذي يحتوي على العنوان الرئيسي سيظهر كنتيجة للبحث. ومن ثم فمن الضروري منع فهرسة جميع النسخ.

يقوم WordPress بتنسيق الصور كمقالات منفصلة بدون نص. في هذا النموذج ، بدون نص ووصف ، تبدو وكأنها مقالات غير صحيحة تمامًا. لذلك ، تحتاج إلى اتخاذ تدابير لمنع فهرسة هذه العناوين بواسطة محركات البحث.

لماذا لا يجب فهرستها؟

خمسة أسباب لحظر الفهرسة!

تضع الفهرسة الكاملة عبئًا إضافيًا على الخادم الخاص بك.
يستغرق وقتًا ثمينًا للروبوت نفسه.
ربما يكون هذا هو أهم شيء ، يمكن لمحركات البحث أن تسيء تفسير المعلومات غير الصحيحة. سيؤدي هذا إلى ترتيب غير صحيح للمقالات والصفحات ، وبالتالي إلى نتائج غير صحيحة في نتائج البحث.
تحتوي المجلدات ذات القوالب والمكونات الإضافية على عدد كبير من الروابط إلى مواقع المبدعين والمعلنين. يعد هذا أمرًا سيئًا للغاية بالنسبة إلى موقع شاب ، عندما لا توجد روابط أو روابط قليلة جدًا لموقعك من الخارج.
من خلال فهرسة جميع نسخ مقالاتك في الأرشيفات والتعليقات ، يحصل محرك البحث على رأي سيء عن موقعك. الكثير من التكرارات. العديد من الروابط الصادرة سيعمل محرك البحث على تخفيض موقعك في نتائج البحث إلى درجة التصفية. والصور ، المصممة كمقال منفصل بعنوان وبدون نص ، ترعب الروبوت. إذا كان هناك الكثير منهم ، فقد يخرج الموقع تحت مرشح Yandex AGS. كان موقعي هناك. التحقق!

الآن ، بعد كل ما قيل ، يطرح سؤال معقول: "هل من الممكن بطريقة ما حظر فهرسة شيء غير ضروري؟". اتضح أنك تستطيع. على الأقل ليس بأمر ، ولكن بالتوصية. تحدث حالة عدم الحظر التام لفهرسة بعض الكائنات بسبب ملف sitemap.xml ، الذي تتم معالجته بعد ملف robots.txt. اتضح على النحو التالي: يحظر ملف robots.txt ، ويسمح ملف sitemap.xml. ومع ذلك يمكننا حل هذه المشكلة. كيف نفعل ذلك الآن والنظر.

يعد ملف wordpress robots.txt ديناميكيًا بشكل افتراضي ولا يوجد بالفعل في Wordpress. ويتم إنشاؤه فقط في الوقت الذي يطلبه فيه شخص ما ، سواء كان روبوتًا أو مجرد زائر. أي ، إذا ذهبت إلى الموقع عبر اتصال FTP ، فلن تجد ملف robots.txt لـ wordpress في المجلد الجذر. وإذا حددت عنوانه المحدد http: //your_site_name/robots.txt في المتصفح ، فستظهر محتوياته على الشاشة كما لو كان الملف موجودًا. سيكون محتوى ملف wordpress robots.txt الذي تم إنشاؤه على النحو التالي:

في قواعد تجميع ملف robots.txt ، بشكل افتراضي ، يُسمح بفهرسة كل شيء. وكيل المستخدم: * يشير التوجيه إلى أن جميع الأوامر اللاحقة تنطبق على جميع وكلاء البحث (*). ولكن بعد ذلك لا يوجد شيء محدود. وكما تعلم ، هذا لا يكفي. لقد ناقشنا بالفعل المجلدات والسجلات ذات الوصول المحدود ، الكثير جدًا.

لكي تتمكن من إجراء تغييرات على ملف robots.txt وحفظها هناك ، تحتاج إلى إنشائه في شكل ثابت ودائم.

كيفية إنشاء ملف robots.txt لبرنامج Wordpress

في أي محرر نصوص (فقط في أي حال من الأحوال لا تستخدم MS Word وما شابه مع عناصر تنسيق النص التلقائي) ، قم بإنشاء ملف نصي بالمحتوى التقريبي التالي وإرساله إلى المجلد الجذر لموقعك. يمكن إجراء التغييرات حسب الحاجة.

تحتاج فقط إلى مراعاة ميزات تجميع الملف:

في بداية سطور الأرقام ، كما هو الحال هنا في المقالة ، لا ينبغي أن يكون هناك. الأرقام معطاة هنا لتسهيل مراجعة محتويات الملف. يجب ألا يكون هناك أي أحرف إضافية في نهاية كل سطر ، بما في ذلك المسافات أو علامات التبويب. بين الكتل يجب أن يكون هناك سطر فارغ بدون أي أحرف ، بما في ذلك المسافات. مجرد مساحة واحدة يمكن أن تسبب لك ضررًا كبيرًا - كن حذرًا .

كيفية التحقق من ملف robots.txt لووردبريس

يمكنك التحقق من ملف robots.txt بحثًا عن مسافات إضافية بالطريقة التالية. في أي محرر نصوص ، حدد كل النص بالضغط على Ctrl + A. إذا لم تكن هناك مسافات في نهاية السطور والخطوط الفارغة ، فستلاحظ ذلك. وإذا كان هناك فراغ محدد ، فأنت بحاجة إلى إزالة المسافات وسيكون كل شيء على ما يرام.

يمكنك التحقق مما إذا كانت القواعد المنصوص عليها تعمل بشكل صحيح على الروابط التالية:

تحليل ملف robots.txt Yandex Webmaster
تحليل ملف robots.txt في وحدة تحكم بحث Google.
خدمة لإنشاء ملف robots.txt: http://pr-cy.ru/robots/
خدمة لإنشاء والتحقق من ملف robots.txt: https://seolib.ru/tools/generate/robots/
وثائق من Yandex .
توثيق من جوجل(إنجليزي)

هناك طريقة أخرى للتحقق من ملف robots.txt لموقع Wordpress ، وذلك لتحميل محتواه إلى مشرف موقع Yandex أو تحديد عنوان موقعه. إذا كانت هناك أي أخطاء ، فستعرف على الفور.

تصحيح ملف robots.txt لـ Wordpress

الآن دعنا ننتقل مباشرة إلى محتوى ملف robots.txt لموقع Wordpress. ما التوجيهات التي يجب أن تكون موجودة فيه. فيما يلي المحتوى التقريبي لملف robots.txt الخاص بووردبريس ، بالنظر إلى ميزاته:

وكيل المستخدم: * Disallow: /wp-login.php Disallow: / wp-admin Disallow: / wp-include Disallow: / wp-content / plugins Disallow: / wp-content / themes Disallow: * / * comments Disallow: * / * فئة Disallow: * / * tag Disallow: * / trackback Disallow: * / * feed Disallow: / *؟ * Disallow: /؟ s = Allow: /wp-admin/admin-ajax.php Allow: / wp-content / uploads / Allow: / *؟ replytocom User-agent: Yandex Disallow: /wp-login.php Disallow: / wp-admin Disallow: / wp-include Disallow: / wp-content / plugins Disallow: / wp-content / theme Disallow: * / comments Disallow: * / * category Disallow: * / * tag Disallow: * / trackback Disallow: * / * feed Disallow: / *؟ * Disallow: / *؟ s = Allow: / wp-admin / admin- ajax.php السماح: / wp-content / uploads / Allow: / *؟ replytocom الزحف - تأخير: 2.0 Host: site.ru خريطة الموقع: http://site.ru/sitemap.xml

توجيهات Wordpress robots.txt

الآن دعنا نلقي نظرة فاحصة:

1 - 16 سطرًا يحظر الإعدادات لجميع الروبوتات

User-agent: - هذا هو التوجيه المطلوب الذي يحدد وكيل البحث. تشير علامة النجمة إلى أن التوجيه مخصص لروبوتات جميع محركات البحث. إذا كانت الكتلة مخصصة لروبوت معين ، فيجب عليك تحديد اسمه ، على سبيل المثال ، Yandex ، كما في السطر 18.

بشكل افتراضي ، كل شيء مسموح به للفهرسة. هذا يعادل Allow: / التوجيه.

لذلك ، لمنع فهرسة مجلدات أو ملفات معينة ، يتم استخدام توجيه خاص Disallow:.

في مثالنا ، باستخدام أسماء المجلدات وأقنعة اسم الملف ، يتم حظر جميع مجلدات خدمة WordPress ، مثل admin ، والسمات ، والمكونات الإضافية ، والتعليقات ، والفئة ، والعلامة ... إذا حددت توجيهًا في هذا النموذج Disallow: /، ثم سيتم حظر فهرسة الموقع بأكمله.

السماح: - كما قلت ، يسمح التوجيه بفهرسة المجلدات أو الملفات. يجب استخدامه عندما تكون هناك ملفات في عمق المجلدات الممنوعة التي لا تزال بحاجة إلى فهرستها.

في المثال الخاص بي ، السطر 3 Disallow: / wp-admin - يحظر فهرسة المجلد / wp-admin ، والسطر 14 Allow: /wp-admin/admin-ajax.php - يسمح بفهرسة الملف /admin-ajax.php موجود في مجلد الفهرسة الممنوع / wp-admin /.

17 - خط فارغ (فقط الضغط على زر الدخول بدون مسافات)

18 - 33 مجموعة إعدادات خاصة بوكيل Yandex (User-agent: Yandex). كما لاحظت ، فإن هذه الكتلة تكرر تمامًا جميع أوامر الكتلة السابقة. والسؤال الذي يطرح نفسه: "ما بحق الجحيم هذه المتاعب؟". لذلك يتم كل هذا فقط بسبب بعض التوجيهات التي سننظر فيها بشكل أكبر.

34 - تأخير الزحف - توجيه اختياري لـ Yandex فقط. يتم استخدامه عندما يتم تحميل الخادم بشكل كبير وليس لديه الوقت لمعالجة طلبات الروبوت. يسمح لك بتعيين روبوت البحث على الحد الأدنى من التأخير (بالثواني وأعشار الثانية) بين نهاية تحميل صفحة واحدة وبداية تحميل الصفحة التالية. القيمة القصوى المسموح بها هي 2.0 ثانية. تتم إضافته مباشرة بعد الأمرين Disallow و Allow.

35 - سلسلة فارغة

36 - المضيف: site.ru - اسم المجال الخاص بموقعك (التوجيه الإلزامي لكتلة Yandex). إذا كان موقعنا يستخدم بروتوكول HTTPS ، فيجب تحديد العنوان بالكامل كما هو موضح أدناه:

المضيف: https://site.ru

37 - يجب وجود سلسلة فارغة (فقط الضغط على زر Enter بدون مسافات).

38 - خريطة الموقع: http://site.ru/sitemap.xml - ملف (ملفات) sitemap.xml عنوان الموقع (التوجيه الإلزامي) ، الموجود في نهاية الملف بعد سطر فارغ وينطبق على جميع الكتل.

أقنعة لتوجيهات ملف robots.txt لـ Wordpress

الآن القليل من كيفية إنشاء الأقنعة:

Disallow: /wp-register.php - تعطيل فهرسة ملف wp-register.php الموجود في المجلد الجذر.
Disallow: / wp-admin - يحظر فهرسة محتويات مجلد wp-admin الموجود في المجلد الجذر.
Disallow: / trackback - تعطيل فهرسة الإشعارات.
Disallow: / wp-content / plugins - يحظر فهرسة محتويات مجلد الملحقات الموجود في مجلد فرعي (مجلد المستوى الثاني) لمحتوى wp.
Disallow: / feed - يحظر فهرسة الخلاصة ، أي يغلق موجز RSS للموقع.
* - تعني أي تسلسل من الأحرف ، لذلك يمكن أن يحل محل كل من حرف واحد وجزء من الاسم أو الاسم الكامل لملف أو مجلد. إن عدم وجود اسم محدد في النهاية هو بمثابة كتابة *.
Disallow: * / * comments - يحظر فهرسة محتويات المجلدات والملفات التي توجد تعليقات باسمها والموجودة في أي مجلدات. في هذه الحالة ، يمنع فهرسة التعليقات.
Disallow: *؟ s = - يمنع فهرسة صفحات البحث

يمكن استخدام الأسطر أعلاه كملف robots.txt عامل لـ Wordpress. فقط في 36 ، 38 سطرًا تحتاج إلى إدخال عنوان موقعك وأرقام أسطر الإزالة الإلزامية. وستحصل على ملف robots.txt يعمل من أجل ووردبريس , تتكيف مع أي محرك بحث.

الميزة الوحيدة هي أن حجم ملف robots.txt العامل لموقع Wordpress يجب ألا يتجاوز 32 كيلو بايت من مساحة القرص.

إذا لم تكن مهتمًا على الإطلاق بـ Yandex ، فلن تحتاج إلى الخطوط 18-35 على الإطلاق. ربما هذا كل شيء. آمل أن تكون المقالة مفيدة. إذا كان لديك أي أسئلة اكتب في التعليقات.