לוגו אמיר משה בינה מלאכותית

אזור אישי

סקירת GPT-5.4: כל מה שצריך לדעת על מודל הדגל של OpenAI

ב5.3.26 הושק מודל GPT 5.4 מבית OpenAI, ההשקה הזו מסמנת את המעבר של OpenAI ממודלי שפה שרק “מדברים”, למודלים שמתפקדים כ”סוכנים” (Agents) אוטונומיים מלאים. המודל החדש מאחד את ההתקדמויות האחרונות בתחומי ההיגיון (Reasoning), הקידוד (Coding) ויכולות הפעולה העצמאיות לכדי מודל דגל אחד המיועד לעבודה מקצועית מורכבת וחסכונית יותר.

1. עבודת ידע משרדית ומקצועית (Knowledge Work)

GPT-5.4 תוכנן להחליף ולייעל עבודה של אנשי מקצוע בתעשיות שונות, עם התמקדות משמעותית בעבודה על מסמכים, גיליונות נתונים ומצגות:

  • ביצועים מול מומחים אנושיים: במבחן GDPval, הבוחן ביצועים ב-44 מקצועות שונים התורמים לכלכלת ארה”ב (כמו בניית מודלים פיננסיים, שרטוטי ייצור ולוחות זמנים רפואיים), המודל הגיע לשיא חדש עם שיעור ניצחון או תיקו של 83.0% מול תוצרי עבודה של אנשי מקצוע.

  • שליטה באקסל ומצגות: המודל מציג קפיצה אדירה בטיפול בגיליונות אלקטרוניים, עם ציון של 87.3% במבחן פנימי המדמה עבודה של אנליסט השקעות (לעומת 68.4% בדור 5.2). בנוסף, בבדיקות עיוורות, בוחנים אנושיים העדיפו מצגות שיצר GPT-5.4 ב-68% מהמקרים, בזכות עיצוב אסתטי יותר, גיוון ויזואלי ושילוב חכם של יצירת תמונות.

  • אמינות ועובדתיות: OpenAI מדווחת כי זהו המודל האמין ביותר שלה. הסיכוי להצהרות שקריות (הלוצינציות) במשפטים בודדים ירד ב-33%, והסיכוי לשגיאות עובדתיות בתשובות ארוכות צנח ב-18%.

GPT 5.4 benchmarks
GPT 5.4 benchmarks
GPT 5.4 benchmarks
GPT 5.4 benchmarks

2. שליטה מובנית במחשב וראייה ממוחשבת (Native Computer Use & Vision)

GPT 5.4 benchmarks

לראשונה בהיסטוריה של החברה, זהו מודל למטרה כללית המגיע עם יכולות שליטה מובנות במחשב:

  • הפעלת ממשקים אקטיבית: המודל מסוגל לכתוב קוד להפעלת מחשבים (למשל דרך ספריות כמו Playwright) וכן לשלוח פקודות מקלדת ועכבר מדויקות ישירות מתוך ניתוח צילומי מסך של ממשק המשתמש.

  • עקיפת היכולת האנושית: במבחן OSWorld-Verified, שבוחן ניווט בסביבת שולחן עבודה באמצעות עכבר ומקלדת, GPT-5.4 השיג אחוז הצלחה של 75.0%, נתון שעוקף אפילו את ממוצע הביצועים האנושי (72.4%) ומרסק את הביצועים של דור 5.2 (שהיו 47.3%). בניווט באתרי אינטרנט על בסיס צילומי מסך בלבד (Online-Mind2Web) המודל מציג נתון מדהים של 92.8% הצלחה.

  • ראייה ממוחשבת ברזולוציה גבוהה במיוחד: המודל תומך כעת בעיבוד תמונות בפירוט חסר תקדים של עד 10.24 מיליון פיקסלים (או מימד מקסימלי של 6000 פיקסלים). זה מאפשר לו לקרוא מסמכים צפופים, לנתח ממשקים גרפיים מורכבים ולזהות אלמנטים בדיוק נקודתי שאף מודל קודם לא יכל לעשות.

3. קידוד ופיתוח תוכנה (Coding)

GPT-5.4 משלב את היכולות המוכחות של מודל הקידוד הייעודי GPT-5.3-Codex ומשפר אותן:

  • במבחן התכנות המחמיר SWE-Bench Pro, המודל השיג ציון מוביל של 57.7%.

  • מצב /fast: מאפשר עבודה במהירות יצירת טוקנים גבוהה פי 1.5, מה ששומר על רצף העבודה (Flow) של מתכנתים במהלך דיבוג וכתיבת קוד.

  • מיומנות ה-“Playwright (Interactive)”: יכולת מהפכנית שבה המודל מסוגל לדבג ולבדוק ויזואלית אפליקציות רשת בזמן שהוא בונה אותן. בהדגמה הרשמית, המודל בנה משחק ניהול פארק שעשועים (במבט איזומטרי) מבוסס דפדפן, והריץ בדיקות אוטומטיות שבהן הוא משחק במשחק בעצמו כדי לוודא שהמבקרים הולכים בשבילים ושהתורים והמדדים פועלים כראוי.

GPT 5.4 benchmarks
GPT 5.4 benchmarks
GPT 5.4 benchmarks

4. שימוש חכם וחסכוני בכלים (Tool Search & Web Search)

אחת הבעיות המרכזיות בהפעלת סוכני AI מורכבים היא העלות הגבוהה וזמן ההמתנה כשהם נדרשים להשתמש בהרבה מערכות API חיצוניות:

  • חיפוש כלים (Tool Search): במקום להעמיס אלפי שורות של הגדרות כלים לתוך חלון ההקשר מראש (מה שמאט ומייקר את הפעולה), GPT-5.4 מקבל רשימה רזה של כלים זמינים. רק כשהוא מחליט שהוא צריך כלי מסוים, הוא שולף את ההגדרה המלאה שלו. בבדיקות מול מאגרי שרתי MCP (הכוללים אלפי כלים מורכבים), השיטה הזו חסכה 47% מכמות הטוקנים, תוך שמירה מלאה על רמת הדיוק.

  • מחקר אינטרנטי עמוק (BrowseComp): המודל מצטיין בחיפוש מחקר “מחט בערימת שחת”. בגרסת ה-Pro שלו, המודל קבע שיא חדש במבחן חקר הרשת עם 89.3% הצלחה באיתור מידע מורכב הדורש גלישה אקטיבית וממושכת.

GPT 5.4 benchmarks
GPT 5.4 benchmarks
GPT 5.4 benchmarks
GPT 5.4 benchmarks

5. שקיפות בחשיבה וניהול זיכרון

  • GPT-5.4 Thinking: ב-ChatGPT, המודל חושף מראש את “תוכנית הפעולה” המחשבתית שלו. היתרון הגדול עבור משתמשים הוא האפשרות להתערב ולתקן את המודל בזמן שהוא עובד ומחשב, כדי לדייק את התוצר הסופי ולחסוך סבבי פינג-פונג מיותרים.

  • חלון הקשר של 1,000,000 טוקנים: מאפשר לסוכנים האוטונומיים לתכנן, לבצע ולוודא משימות מורכבות על פני אופקי זמן ארוכים. סוכן יכול, למשל, לקרוא אלפי אימיילים, לחלץ קבצים, לנתח אותם ולהזין את הנתונים למערכות ארגוניות ב”נשימה אחת”.

לסיכום

GPT-5.4 מציג התבגרות משמעותית של בינה מלאכותית. היכולת שלו לקבל משימה מורכבת, לגשת בעצמו לדפדפן, לחפש את הכלים המתאימים, ולשלוט במחשב ממש כמו מתכנת או אנליסט – לצד חיסכון דרמטי בעלויות הטוקנים באמצעות ניהול חכם של API – הופכת אותו למוצר יעיל ומרכזי בהרבה מאשר כל דור שקדם לו.

אולי יעניין אותך גם:

השאירו פרטים לחזרה