OpenAI מציגה את המודלים החדשים o3 ו-o4 mini: המודלים החכמים ביותר עד כה

OpenAI השיקה את שני המודלים החדשים והמתקדמים ביותר שלה לשימוש ציבורי, o3 ו-o4-mini, המציגים קפיצת מדרגה משמעותית ביכולות הבינה המלאכותית. מדובר במודלים החכמים ביותר שהחברה שחררה עד כה, עם דגש על יכולות חשיבה מעמיקות וגישה מלאה לכלים שונים.

המודל המוביל - o4-mini: יעילות וחשיבה מתקדמת

o4-mini הוא מודל קטן יותר המיועד לחשיבה מהירה ויעילה מבחינת עלות. למרות גודלו הקטן יחסית, הוא מציג ביצועים מרשימים במיוחד בתחומי המתמטיקה, קידוד וניתוח חזותי. המודל מצטיין במיוחד:

הישגים מובילים בתחרויות מתמטיקה AIME 2024 ו-2025

ביצועים מצוינים בתחרויות תכנות Codeforces

יכולות מתקדמות בהבנה חזותית וניתוח תמונות

יעילות גבוהה המאפשרת שימוש בהיקפים גדולים יותר בהשוואה ל-o3

לפי הערכות מומחים חיצוניים, o4-mini מציג שיפור משמעותי גם במשימות שאינן STEM, כמו מדעי הנתונים. הודות ליעילותו, המודל תומך במגבלות שימוש גבוהות יותר מ-o3, מה שהופך אותו לאפשרות מצוינת עבור שאלות בנפח גבוה הדורשות חשיבה מעמיקה.

benchmarks של המודלים של openai o3 o-4 mini

המודל העוצמתי - o3: הרחבת גבולות החשיבה המלאכותית

o3 הוא המודל החזק ביותר של OpenAI לחשיבה מעמיקה, המרחיב את הגבולות בתחומי קידוד, מתמטיקה, מדע, תפיסה חזותית ועוד. הוא קובע סטנדרט חדש במגוון מדדים אקדמיים, כולל:

Codeforces

SWE-bench (ללא בניית תשתית מותאמת אישית למודל)

MMMU (הבנה מולטימודלית)

בהערכות של מומחים חיצוניים, o3 עושה 20 אחוז פחות טעויות משמעותיות בהשוואה ל-OpenAI o1 במשימות מורכבות מהעולם האמיתי, במיוחד בתחומי תכנות, ייעוץ עסקי, ויצירתיות. משתמשים מוקדמים הדגישו את יכולתו לשמש כשותף חשיבה אנליטי וליצור ולהעריך באופן ביקורתי השערות חדשות—במיוחד בהקשרים של ביולוגיה, מתמטיקה והנדסה.

benchmarks של המודלים של openai o3 o-4 mini

חידושים משמעותיים בשני המודלים

חשיבה עם תמונות

לראשונה, המודלים החדשים יכולים לשלב תמונות ישירות בתהליך החשיבה שלהם. הם לא רק “רואים” תמונה—הם “חושבים” איתה. זה מאפשר סוג חדש של פתרון בעיות המשלב חשיבה חזותית וטקסטואלית, כפי שמשתקף בביצועים פורצי הדרך שלהם במדדי הערכה מולטימודליים.

משתמשים יכולים להעלות תמונה של לוח, תרשים מספר לימוד, או סקיצה מצוירת ביד, והמודל יכול לפרש אותה—גם אם התמונה מטושטשת, הפוכה, או באיכות נמוכה. בשימוש בכלים, המודלים יכולים לתמרן תמונות תוך כדי עבודה—לסובב, להגדיל, או לשנות אותן כחלק מתהליך החשיבה.

צילום מסך של chatgpt חושב שהוא מנתח תמונה

ChatGPT מקבל תמונה - ומתחיל לחשוב ולהציע רעיונות איך לבצע את הבקשה שהמשתמש מבקש

שימוש בכלים באופן עצמאי

שני המודלים מגיעים עם גישה מלאה לכלים בתוך ChatGPT, וכן לכלים מותאמים אישית דרך קריאות פונקציות ב-API. המודלים מאומנים לחשוב על פתרון בעיות, לבחור מתי ואיך להשתמש בכלים כדי לייצר תשובות מפורטות ומחושבות בפורמטים התוצאה הנכונים במהירות—בדרך כלל בפחות מדקה.

לדוגמה, משתמש יכול לשאול: “איך יתנהג השימוש באנרגיה בקיץ בקליפורניה בהשוואה לשנה שעברה?” המודל יכול לחפש ברשת נתוני חברת חשמל ציבוריים, לכתוב קוד Python כדי לבנות תחזית, ליצור גרף או תמונה, ולהסביר את הגורמים המרכזיים מאחורי התחזית, תוך שרשור של מספר קריאות כלים.

הרחבת למידת החיזוק העצמית (Reinforcement learning)

במהלך פיתוח OpenAI o3, החברה הבחינה שלמידת חיזוק בקנה מידה גדול מציגה את אותה מגמה של “יותר חישוב = ביצועים טובים יותר” שנצפתה באימון מוקדם של סדרת GPT. באמצעות מעקב אחר נתיב הסקיילינג—הפעם ב-RL—הם דחפו סדר גודל נוסף הן בחישוב האימון והן בחשיבה בזמן היסק, ועדיין רואים שיפורי ביצועים ברורים, מה שמאמת שביצועי המודלים ממשיכים להשתפר ככל שמאפשרים להם לחשוב יותר.

בטיחות ואבטחה

עבור o3 ו-o4-mini, החברה בנתה מחדש לחלוטין את נתוני אימון הבטיחות שלה, הוסיפה הנחיות סירוב חדשות בתחומים כמו איומים ביולוגיים, יצירת תוכנות זדוניות ו”פריצות כלא”(Jailbreaking). נתונים מחודשים אלה הובילו את המודלים להשיג ביצועים חזקים במדדי הסירוב הפנימיים של החברה.

OpenAI ביצעה בדיקות לחץ על שני המודלים עם תוכנית הבטיחות הקפדנית ביותר שלה עד כה. בהתאם למסגרת המוכנות המעודכנת, החברה העריכה את o3 ו-o4-mini בשלושה תחומי יכולת: ביולוגי וכימי, אבטחת סייבר, ושיפור עצמי של AI. על סמך תוצאות הערכות אלה, נקבע ששני המודלים נשארים מתחת לסף ה”גבוה” של המסגרת בכל שלוש הקטגוריות.

הכירו את Codex CLI

בשורה מדהימה למתכנתים!
OpenAI משתפת גם ניסוי חדש: Codex CLI, סוכן קידוד קל משקל שניתן להריץ מהטרמינל(Terminal). הוא עובד ישירות על המחשב של המשתמש ומתוכנן למקסם את יכולות החשיבה של מודלים כמו o3 ו-o4-mini, עם תמיכה עתידית למודלי API נוספים כמו GPT-4.1.

החברה משיקה יוזמה בשווי מיליון דולר לתמיכה בפרויקטים המשתמשים ב-Codex CLI ומודלים של OpenAI. ההצעות יכולות להיות מוגשות דרך אתר החברה.

צילום מסך של openai codex cli

קצת Benchmarks כי חייב

בBenchmarks תוכלו לראות את ביצועי המודלים החדשים אל מול המודלים הישנים מבית OpenAI.

multimodal benchmarks של המודלים של openai o3 o-4 mini
benchmarks coding של המודלים של openai o3 o-4 mini
benchmarks של המודלים של openai o3 o-4 mini
benchmarks של המודלים של openai o3 o-4 mini instruction following and agentic tool use
benchmarks של המודלים של openai o3 o-4 mini tau bench function calling

גישה למודלים ותמחור

משתמשי ChatGPT Plus, Pro ו-Team יראו את o3, o4-mini, ו-o4-mini-high בבוחר המודלים החל מהיום, מחליפים את o1, o3-mini, ו-o3-mini-high. משתמשי ChatGPT Enterprise ו-Edu יקבלו גישה בתוך שבוע. משתמשים חינמיים יכולים לנסות את o4-mini על-ידי בחירה ב-‘Think’ לפני שליחת השאילתה שלהם.

החברה צופה לשחרר את OpenAI o3-pro בעוד מספר שבועות עם תמיכה מלאה בכלים. בינתיים, משתמשי Pro יכולים עדיין לגשת ל-o1-pro.

שני המודלים, o3 ו-o4-mini, זמינים גם למפתחים דרך Chat Completions API ו-Responses API (חלק מהמפתחים יצטרכו לאמת את הארגונים שלהם כדי לגשת למודלים אלה).

לגבי תמחור המודלים, o-4 mini יעלה 1.10$ לInput ו4.40$ לOutput.
o-3 יעלה 10$ לInput ו40 דולר לOutput.
המחירים הם לפי מיליון טוקנים.

צילום מסך של מחירי שימוש בo3 ו o4-mini
מה מצפה לנו בעתיד?

העדכונים של היום משקפים את הכיוון אליו מודלי OpenAI מתקדמים: שילוב יכולות החשיבה המיוחדות של סדרת O עם יותר מהיכולות השיחתיות הטבעיות ושימוש בכלים של סדרת GPT. על ידי איחוד חוזקות אלה, מודלים עתידיים יתמכו בשיחות טבעיות וחלקות לצד שימוש פרואקטיבי בכלים ופתרון בעיות מתקדם.

אולי יעניין אותך גם:

השאירו פרטים לחזרה