שימוש בקובץ robots.txt

עשה שימוש יעיל ב – txt.robots

קובץ "robots.txt" אומר למנועי חיפוש אם באפשרותם לגשת אל חלקים של האתר שלך ולסרוק אותם. קובץ זה חייב להיות בשם robots.txt , ויש להציב אותו בספריית הבסיס של האתר.

 

כל ה – bots של מנועי החיפוש התואמים (המצוינים באמצעות סמל התו הכללי *) לא אמורים לגשת ולסקור תוכן
המופיע תחת / images / או כל URL שהנתיב שלו מתחיל ב / – search

ייתכן כי לא תרצה שדפים מסוימים באתר שלך ייסרקו מפני שייתכן כי לא יועילו למשתמשים אם יימצאו בתוצאות חיפוש
של מנוע חיפוש. אם ברצונך למנוע ממנועי חיפוש לסרוק דפים באתר שלך, כלים למנהלי אתרים של Google כוללים
מייצר robots.txt ידידותי שיכול לעזור לך ליצור קובץ זה. שים לב, אם האתר שלך משתמש בתחומי משנה וברצונך
להגדיר כי דפים מסוימים בתחום משנה מסוים לא ייסרקו, יהיה עליך ליצור קובץ robots.txt נפרד עבור תחום משנה
זה.לקבלת מידע נוסף על robots.txt ,מומלץ לעיין במדריך זה במרכז העזרה של Webmaster בנושא שימוש בקובצי
robots.txt.

קיימות מספר דרכים נוספות למנוע מתוכן מלהופיע בתוצאות חיפוש, כגון הוספת "NOINDEX "למתא התג robots ,
שימוש ב htaccess כדי להגן על ספריות באמצעות סיסמה, ושימוש בכלים למנהלי אתרים של Google כדי להסיר
תוכן שנסרק כבר.

שיטות עבודה מומלצות עם robots.txt

 השתמש בשיטות מאובטחות יותר עבור תוכן רגיש – אל תרגיש בנוח להשתמש ב robots.txt – כדי לחסום
חומר רגיש או סודי. אחת הסיבות לכך היא כי מנועי חיפוש עדיין עשויים להפנות אל כתובות URL שאתה חוסם
(להציג רק את ה – URL ,ללא כותרת או קטע טקסט) אם ישנן קישורים אל כתובות URL אלה ממקום אחר
באינטרנט (כגון יומני כניסות – logs referrer). כמו כן, מנועי חיפוש שאינם תואמים או זדוניים, שאינם מכירים
בתקן Standard Exclusion Robots ,עלולים שלא לציית להוראות שבקובץ robots.txt שיצרת. לבסוף,
משתמש סקרן עלול לבחון את הספריות או ספריות המשנה בקובץ robots.txt ולנחש את ה – URL של התוכן
שאינך רוצה להציג. הצפנת התוכן או הגנה עליו באמצעות סיסמה עם htaccess מהוות חלופות בטוחות יותר.

הימנע מ:
 להתיר סריקה של דפים הדומים לתוצאות חיפוש (משתמשים לא אוהבים לעזוב דף תוצאות
חיפוש אחד ולנחות בדף תוצאות חיפוש אחר שלא מוסיף להם ערך משמעותי).
 להתיר סריקה של מספר גדול של דפים הנוצרים אוטומטית שהם בעלי תוכן זהה או שונה אך
במעט: "האם 10,000 דפים כמעט זהים אלה באמת צריכים להופיע באינדקס של מנוע חיפוש?"
 להתיר סריקה של כתובות URL הנוצרות כתוצאה משירותי Proxy.

המאמר פורסם במקור בתאריך 13.11.09 על ידי Google וכל הזכויות שמורות להם.