
perplexity מעכשיו גם ב-Whatsapp
כולנו כבר מדברים עם בינה מלאכותית ביום-יום, אבל מה שהופך את החידוש הזה למרגש במיוחד הוא הזמינות הפשוטה שלו. פרפלקסיטי,
OpenAI השיקה את שני המודלים החדשים והמתקדמים ביותר שלה לשימוש ציבורי, o3 ו-o4-mini, המציגים קפיצת מדרגה משמעותית ביכולות הבינה המלאכותית. מדובר במודלים החכמים ביותר שהחברה שחררה עד כה, עם דגש על יכולות חשיבה מעמיקות וגישה מלאה לכלים שונים.
o4-mini הוא מודל קטן יותר המיועד לחשיבה מהירה ויעילה מבחינת עלות. למרות גודלו הקטן יחסית, הוא מציג ביצועים מרשימים במיוחד בתחומי המתמטיקה, קידוד וניתוח חזותי. המודל מצטיין במיוחד:
הישגים מובילים בתחרויות מתמטיקה AIME 2024 ו-2025
ביצועים מצוינים בתחרויות תכנות Codeforces
יכולות מתקדמות בהבנה חזותית וניתוח תמונות
יעילות גבוהה המאפשרת שימוש בהיקפים גדולים יותר בהשוואה ל-o3
לפי הערכות מומחים חיצוניים, o4-mini מציג שיפור משמעותי גם במשימות שאינן STEM, כמו מדעי הנתונים. הודות ליעילותו, המודל תומך במגבלות שימוש גבוהות יותר מ-o3, מה שהופך אותו לאפשרות מצוינת עבור שאלות בנפח גבוה הדורשות חשיבה מעמיקה.
o3 הוא המודל החזק ביותר של OpenAI לחשיבה מעמיקה, המרחיב את הגבולות בתחומי קידוד, מתמטיקה, מדע, תפיסה חזותית ועוד. הוא קובע סטנדרט חדש במגוון מדדים אקדמיים, כולל:
Codeforces
SWE-bench (ללא בניית תשתית מותאמת אישית למודל)
MMMU (הבנה מולטימודלית)
בהערכות של מומחים חיצוניים, o3 עושה 20 אחוז פחות טעויות משמעותיות בהשוואה ל-OpenAI o1 במשימות מורכבות מהעולם האמיתי, במיוחד בתחומי תכנות, ייעוץ עסקי, ויצירתיות. משתמשים מוקדמים הדגישו את יכולתו לשמש כשותף חשיבה אנליטי וליצור ולהעריך באופן ביקורתי השערות חדשות—במיוחד בהקשרים של ביולוגיה, מתמטיקה והנדסה.
לראשונה, המודלים החדשים יכולים לשלב תמונות ישירות בתהליך החשיבה שלהם. הם לא רק “רואים” תמונה—הם “חושבים” איתה. זה מאפשר סוג חדש של פתרון בעיות המשלב חשיבה חזותית וטקסטואלית, כפי שמשתקף בביצועים פורצי הדרך שלהם במדדי הערכה מולטימודליים.
משתמשים יכולים להעלות תמונה של לוח, תרשים מספר לימוד, או סקיצה מצוירת ביד, והמודל יכול לפרש אותה—גם אם התמונה מטושטשת, הפוכה, או באיכות נמוכה. בשימוש בכלים, המודלים יכולים לתמרן תמונות תוך כדי עבודה—לסובב, להגדיל, או לשנות אותן כחלק מתהליך החשיבה.
ChatGPT מקבל תמונה - ומתחיל לחשוב ולהציע רעיונות איך לבצע את הבקשה שהמשתמש מבקש
שני המודלים מגיעים עם גישה מלאה לכלים בתוך ChatGPT, וכן לכלים מותאמים אישית דרך קריאות פונקציות ב-API. המודלים מאומנים לחשוב על פתרון בעיות, לבחור מתי ואיך להשתמש בכלים כדי לייצר תשובות מפורטות ומחושבות בפורמטים התוצאה הנכונים במהירות—בדרך כלל בפחות מדקה.
לדוגמה, משתמש יכול לשאול: “איך יתנהג השימוש באנרגיה בקיץ בקליפורניה בהשוואה לשנה שעברה?” המודל יכול לחפש ברשת נתוני חברת חשמל ציבוריים, לכתוב קוד Python כדי לבנות תחזית, ליצור גרף או תמונה, ולהסביר את הגורמים המרכזיים מאחורי התחזית, תוך שרשור של מספר קריאות כלים.
במהלך פיתוח OpenAI o3, החברה הבחינה שלמידת חיזוק בקנה מידה גדול מציגה את אותה מגמה של “יותר חישוב = ביצועים טובים יותר” שנצפתה באימון מוקדם של סדרת GPT. באמצעות מעקב אחר נתיב הסקיילינג—הפעם ב-RL—הם דחפו סדר גודל נוסף הן בחישוב האימון והן בחשיבה בזמן היסק, ועדיין רואים שיפורי ביצועים ברורים, מה שמאמת שביצועי המודלים ממשיכים להשתפר ככל שמאפשרים להם לחשוב יותר.
עבור o3 ו-o4-mini, החברה בנתה מחדש לחלוטין את נתוני אימון הבטיחות שלה, הוסיפה הנחיות סירוב חדשות בתחומים כמו איומים ביולוגיים, יצירת תוכנות זדוניות ו”פריצות כלא”(Jailbreaking). נתונים מחודשים אלה הובילו את המודלים להשיג ביצועים חזקים במדדי הסירוב הפנימיים של החברה.
OpenAI ביצעה בדיקות לחץ על שני המודלים עם תוכנית הבטיחות הקפדנית ביותר שלה עד כה. בהתאם למסגרת המוכנות המעודכנת, החברה העריכה את o3 ו-o4-mini בשלושה תחומי יכולת: ביולוגי וכימי, אבטחת סייבר, ושיפור עצמי של AI. על סמך תוצאות הערכות אלה, נקבע ששני המודלים נשארים מתחת לסף ה”גבוה” של המסגרת בכל שלוש הקטגוריות.
בשורה מדהימה למתכנתים!
OpenAI משתפת גם ניסוי חדש: Codex CLI, סוכן קידוד קל משקל שניתן להריץ מהטרמינל(Terminal). הוא עובד ישירות על המחשב של המשתמש ומתוכנן למקסם את יכולות החשיבה של מודלים כמו o3 ו-o4-mini, עם תמיכה עתידית למודלי API נוספים כמו GPT-4.1.
החברה משיקה יוזמה בשווי מיליון דולר לתמיכה בפרויקטים המשתמשים ב-Codex CLI ומודלים של OpenAI. ההצעות יכולות להיות מוגשות דרך אתר החברה.
בBenchmarks תוכלו לראות את ביצועי המודלים החדשים אל מול המודלים הישנים מבית OpenAI.
משתמשי ChatGPT Plus, Pro ו-Team יראו את o3, o4-mini, ו-o4-mini-high בבוחר המודלים החל מהיום, מחליפים את o1, o3-mini, ו-o3-mini-high. משתמשי ChatGPT Enterprise ו-Edu יקבלו גישה בתוך שבוע. משתמשים חינמיים יכולים לנסות את o4-mini על-ידי בחירה ב-‘Think’ לפני שליחת השאילתה שלהם.
החברה צופה לשחרר את OpenAI o3-pro בעוד מספר שבועות עם תמיכה מלאה בכלים. בינתיים, משתמשי Pro יכולים עדיין לגשת ל-o1-pro.
שני המודלים, o3 ו-o4-mini, זמינים גם למפתחים דרך Chat Completions API ו-Responses API (חלק מהמפתחים יצטרכו לאמת את הארגונים שלהם כדי לגשת למודלים אלה).
לגבי תמחור המודלים, o-4 mini יעלה 1.10$ לInput ו4.40$ לOutput.
o-3 יעלה 10$ לInput ו40 דולר לOutput.
המחירים הם לפי מיליון טוקנים.
העדכונים של היום משקפים את הכיוון אליו מודלי OpenAI מתקדמים: שילוב יכולות החשיבה המיוחדות של סדרת O עם יותר מהיכולות השיחתיות הטבעיות ושימוש בכלים של סדרת GPT. על ידי איחוד חוזקות אלה, מודלים עתידיים יתמכו בשיחות טבעיות וחלקות לצד שימוש פרואקטיבי בכלים ופתרון בעיות מתקדם.
כולנו כבר מדברים עם בינה מלאכותית ביום-יום, אבל מה שהופך את החידוש הזה למרגש במיוחד הוא הזמינות הפשוטה שלו. פרפלקסיטי,
אם אתם מורים, מרצים, יוצרים או סתם מחפשים דרך ייחודית להסביר משהו – אתם כנראה מכירים את התחושה הזאת: הרעיונות
היום שוחרר מודל Qwen3 מבית עליבאבא, התוספת החדשה למשפחת מודלי השפה הגדולים של Qwen.
השאירו פרטים לחזרה