פתחתם את הלוגים של השרת לאחרונה? יש שם שמות שלא היו קיימים לפני כמה שנים: GPTBot, ChatGPT-User, OAI-SearchBot. אלו שלושת הבוטים העיקריים של OpenAI.
בשנים האחרונות נוספה שכבה חדשה של סריקות לאינטרנט. בוטים של מערכות AI מחפשים תוכן כדי לענות על שאלות של משתמשים. OpenAI הם לא היחידים -גם ל-Anthropic יש בוטים משלה שסורקים אתרים בדפוס דומה.
אם אתם לא רואים אותם בלוגים לאורך זמן זה לא בהכרח אומר שיש בעיה. ייתכן שהאתר קטן, חדש, או פשוט עדיין לא נכנס לרדאר של מערכות AI.
שלושת הבוטים של OpenAI
ל-OpenAI יש שלושה בוטים עיקריים. כל אחד מהם ממלא תפקיד שונה.
1. GPTBot
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.3; +https://openai.com/gptbot)GPTBot הוא הסורק הראשי של OpenAI. הוא אוסף תוכן ציבורי מהאינטרנט שעשוי לשמש לאימון מודלים עתידיים.
חשוב להבין: זה לא אומר שהתוכן נכנס ישירות ל-ChatGPT. הוא עשוי לשמש כחלק ממערכי האימון של מודלים עתידיים.
2. ChatGPT-User
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ChatGPT-User/1.0; +https://openai.com/bot)ChatGPT-User אינו crawler רגיל. זה user-agent שמופעל כאשר משתמש מבקש מ-ChatGPT לפתוח עמוד או לקרוא מידע מהאתר.
כל בקשה כזו אומרת שמישהו שאל שאלה. ChatGPT בחר לשלוף את הדף שלכם כדי לענות.
לפעמים ChatGPT משתמש בעותק שמור או במידע שכבר נאסף. ChatGPT-User מופעל בעיקר כאשר נדרש מידע עדכני.
3. OAI-SearchBot
User-Agent:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbotOAI-SearchBot משמש לאינדוקס תוכן עבור החיפוש של ChatGPT.
בניגוד ל-ChatGPT-User שמופעל בעקבות שאלות של משתמשים, OAI-SearchBot מבצע סריקות יזומות כדי לבנות אינדקס חיפוש.
ההבדל הקריטי
רבים מתייחסים לבוטים של OpenAI כאל דבר אחד. זו טעות.
שלושת הבוטים פועלים בשכבות שונות:
- GPTBot – אוסף תוכן ציבורי שעשוי לשמש לאימון מודלים עתידיים.
- OAI-SearchBot – מאנדקס עמודים עבור מנוע החיפוש של ChatGPT.
- ChatGPT-User – ניגש לעמודים כאשר משתמש מבקש מ-ChatGPT לפתוח קישור.
איך לזהות את הבוטים בלוגים
אם יש לכם גישה ללוגים של השרת חפשו את המחרוזות:
GPTBot
ChatGPT-User
OAI-SearchBotמספר הגרסה משתנה לעיתים קרובות. עדיף לחפש לפי שם הבוט בלבד.
טווחי IP רשמיים
OpenAI מפרסמים רשימות IP:
- https://openai.com/gptbot.json
- https://openai.com/chatgpt-user.json
- https://openai.com/searchbot.json
טיפ טכני: user-agent לבדו אינו מספיק לזיהוי בוט אמיתי. תמיד כדאי לאמת גם את כתובת ה-IP.
robots.txt
אפשר לשלוט בכל בוט בנפרד.
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Allow: /כך אפשר לחסום שימוש בתוכן לאימון מודלים ועדיין לאפשר הופעה בתוצאות החיפוש של ChatGPT.
זיהוי תנועה מ-ChatGPT
לעיתים ביקורים מ-ChatGPT יגיעו עם הפרמטר:
utm_source=chatgpt.comכך ניתן לזהות תנועה שמגיעה מ-ChatGPT באנליטיקס.
מה לקחת מפה
- ל-OpenAI יש שלושה בוטים מרכזיים: GPTBot, OAI-SearchBot ו-ChatGPT-User.
- לכל אחד מהם תפקיד שונה.
- GPTBot אוסף תוכן לאימון מודלים עתידיים.
- OAI-SearchBot קשור לנראות בתוצאות ChatGPT.
- ChatGPT-User מופעל כאשר משתמש מבקש לפתוח עמוד.
