מזה קובץ robots.txt?
זהו קובץ הגדרות שמתווך בין מנהל האתר למנועי החיפוש.
זה מעין תקן של שפה. מופיע כקובץ בשמו המלא robots exclusion standard/protocol
וזוהי השפה שבה האתר שלך מדבר אל הרובוטים של מנועי החיפוש.
לכל מנועי החיפוש ישנם רובוטים (crawlers) שדואגים לאנדקס (בעצם לקרוא) את האינטרנט.
ואז זה פשוט: כדי שכל המנועי החיפוש ידברו באותה שפה עם אתרי האינטרנט,
פותחה שפה שבה מנהל האתר אומר לרובוטים (crawlers) מה לאנדקס ומאיזה דף להתעלם.
אז למה בכל זאת צריך את קובץ robots.txt?
הקובץ נועד לקשר בין מנהל האתר ומנועי החיפוש.
בעזרת קובץ זה ניתן לחסום דף ייעודי או ספריה שלמה מהרובוטים של מנועי החיפוש.
בנוסף נהוג לבצע הפניה לקובץ sitemap.xml שנקרא ע"י מנועי החיפוש ומהווה את מבנה האתר.
דוגמאות להגדרות שונות:
מאפשר לכל הרובוטים גישה לאתר
User-agent: *
Disallow:
חוסם גישה של הרובוטים לאתר
User-agent: *
Disallow:/
חוסם גישה לספריות הבאות
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
מאפשר רק לרובוט של גוגל גישה וחוסם את כל שאר הרובוטים
User-agent: Google
Disallow:
User-agent: *
Disallow: /
ציון שם הקובץ של site map כלומר אנו יכולים ליצור הצבעה לכל שם שאנו נרצה
Sitemap: http://www.domain.co.il/sitemap_index.xml
בנוסף לקובץ Robots.txt בכל דף ניתן להוסיף תווית מיוחדת שאומרת לרובוט מה לעשות.
לדוגמה:
בדוגמה הבאה הרובוט לא מאנדקס את הדף ולא ממשיך לדף הבא לצורך אינדוקס.
META name="ROBOTS" content="NOINDEX, NOFOLLOW"
ומה אומר על כך הגורו של גוגל מט כץ?
האם ליצור את הקובץ הזה בכל מקרה (למרות שלא צריך לחסום)
מקורות:
robotstxt.org אתר לגבי מידע ודוגמות לקובץ Robots.txt
פניה מאתר w3.org שמאגד את התקן של האינטרנט בנושא רובוטים (crawlers)