
הכירו את מודל הקוד הפתוח Kimi K2.5 מבית Moonshot AI שבא להפחיד את הענקיות
הכירו את Kimi K2.5: מודל הקוד הפתוח החזק בעולם. עם טכנולוגיית Agent Swarm המפעילה 100 סוכנים במקביל, גלו איך הוא
פברואר 2026 ייזכר בספרי ההיסטוריה של הטכנולוגיה כקו פרשת המים שבו הבינה המלאכותית הפסיקה להיות כלי עזר והפכה לישות ביצועית עצמאית. עם השקתם של GPT-5.3-Codex מבית OpenAI ו-Claude Opus 4.6 מבית Anthropic, המרוץ ל-AGI (בינה מלאכותית כללית) נכנס לשלב חדש: שלב ה-Agents (סוכני AI).
בעוד שבעבר המודלים התמקדו בחיזוי המילה הבאה, המודלים החדשים של 2026 מתמקדים בביצוע המשימה הבאה. במאמר זה ננתח לעומק את כל אחד מהענקים הללו, נבין את הארכיטקטורה שעומדת מאחוריהם, את הביצועים שלהם בשטח ואת ההשלכות על עולם הפיתוח.
ההכרזה של OpenAI על GPT-5.3-Codex לא הייתה רק שדרוג של גרסה. מדובר במודל ה-Agentic המורכב ביותר שנבנה אי פעם, כזה שמשלב יכולות תכנות קצה עם הבנה עמוקה של עולם העבודה המקצועי על גבי מחשב.
אולי הפרט המדהים ביותר שנחשף בהשקה הוא ש-GPT-5.3-Codex היה הכלי המרכזי שבו השתמשו כדי לבנות את… GPT-5.3-Codex. צוות הפיתוח ב-OpenAI השתמש בגרסאות אלפא של המודל כדי לדבג את קוד האימון שלו, לנהל את הפריסה בשרתים ולאבחן תוצאות בדיקה בזמן אמת. המודל למעשה האיץ את קצב הפיתוח של עצמו, מה שמעיד על רמת אמינות שכמעט ולא ראינו בעבר.
הנתונים היבשים של קודקס 5.3 מרשימים בכל קנה מידה:
Terminal-Bench 2.0: המודל השיג ציון של 77.3%, מה שמציב אותו בראש הטבלה ביכולת לתפעל טרמינלים ומערכות הפעלה.
SWE-Bench Pro: במבחן זה, שבוחן הנדסת תוכנה בעולם האמיתי על פני ארבע שפות תכנות שונות, המודל שבר את השיא הקודם תוך שימוש בכמות נמוכה משמעותית של טוקנים (Token Efficiency).
OSWorld-Verified: היכולת של המודל להשתמש במחשב דרך ממשק ויזואלי (Computer Use) עומדת על 64.7%, כאשר הציון האנושי הממוצע הוא 72%. מדובר בצמצום פערים דרמטי.
GPT-5.3-Codex הוא לא רק מתכנת. הוא סוכן שמסוגל לבצע מחקר, להשתמש בכלים חיצוניים ולנהל ביצוע מורכב. דוגמה בולטת היא יכולתו לבנות משחקים ואפליקציות מלאות (כמו משחק מרוצים או משחק צלילה) תוך ימים בודדים של עבודה אוטונומית, כולל פתרון באגים ושיפור האסתטיקה ללא התערבות אנושית.
לראשונה, OpenAI מסווגת מודל כבעל “יכולת גבוהה” (High capability) למשימות סייבר. המודל אומן ספציפית לזהות חולשות תוכנה (Vulnerabilities). כדי למנוע שימוש לרעה, הושקה תוכנית “Trusted Access for Cyber” המעניקה גישה לחוקרי אבטחה, לצד השקעה של 10 מיליון דולר בקרדיטים ל-API לטובת הגנת סייבר על תשתיות קריטיות וקוד פתוח.
Anthropic, המתחרה המושבעת, בחרה בגישה שונה עם Claude Opus 4.6. בעוד ש-OpenAI מתמקדת בביצוע פקודות ותפעול מחשב, Anthropic מתמקדת בעומק חשיבה, תכנון אסטרטגי וזיכרון עבודה חסר תקדים.
הבשורה הגדולה ביותר ב-Opus 4.6 היא חלון הקשר של מיליון טוקנים בבטא. אם עד היום מודלים סבלו מ”Context Rot” (ירידה בביצועים ככל שהשיחה מתארכת), Opus 4.6 מציג יציבות יוצאת דופן. במבחני “מחט בערימת שחת” (MRCR v2), המודל השיג 76% הצלחה בזיכרון של מיליון טוקנים, לעומת מודלים אחרים שצנחו מתחת ל-20%. המשמעות: המודל יכול לקרוא ספריות קוד שלמות או מאות מסמכים משפטיים ולזכור פרט קטן שהופיע בעמוד 14,000.
חידוש מרענן ב-Opus 4.6 הוא היכולת לשלוט ב”מאמץ” המחשבתי של המודל. המשתמש יכול להגדיר דרך ה-API או הממשק (פרמטר /effort) האם הוא רוצה שהמודל יחשוב לעומק על בעיה מורכבת או ייתן תשובה מהירה לבעיה פשוטה. זהו פתרון לבעיית ה”חשיבת יתר” (Overthinking) שהייתה קיימת במודלים חזקים, שנטו לבזבז משאבים על שאלות טריוויאליות.
במבחן GDPval-AA, הבוחן ביצועים במשימות בעלות ערך כלכלי גבוה (פיננסים, משפט, ניהול), Opus 4.6 עקף את GPT-5.2 ב-144 נקודות Elo. הוא מצטיין בניתוחים פיננסיים, בניית מצגות (דרך Research Preview של Claude in PowerPoint) וניהול דאטה באקסל.
Anthropic ממשיכה להוביל בבטיחות. Opus 4.6 מציג את שיעורי ה-“Over-refusal” (סירוב לענות על שאלות תמימות) הנמוכים ביותר בהיסטוריה של המותג, תוך שמירה על עמידות גבוהה בפני הטעיות, חנופה למשתמש או שיתוף פעולה עם פעולות מזיקות.
כדי להבין באיזה מודל כדאי להשתמש, עלינו להסתכל על הנתונים המקבילים:
| תכונה / מודל | GPT-5.3-Codex | Claude Opus 4.6 |
| מהירות וביצועים | מהיר ב-25% מקודמו, מותאם לזמן אמת | אדפטיבית, מתמקדת בדיוק על חשבון מהירות |
| חלון הקשר (Context) | סטנדרטי (משופר) | 1,000,000 טוקנים |
| שליטה במחשב (GUI) | מצטיין (64.7% ב-OSWorld) | חזק, אך מתמקד בסביבת עבודה (Office) |
| יכולות סייבר | רמה גבוהה, זיהוי חולשות אקטיבי | זיהוי וניטור שימוש לרעה (Probes) |
| כלי עבודה מרכזיים | CLI, IDE Extension, Web | Cowork, Claude Code, Excel/PPT |
| ציון Terminal-Bench | 77.3% | מוביל (שיאים מקבילים) |
המודל עבר מבחני בטיחות מקיפים המודדים טווח רחב של התנהגויות בלתי רצויות, והוא ממשיך את המגמה של Anthropic ליצירת מודלים בטוחים ומאובטחים יותר.
השקת המודלים הללו מסמנת את סופו של עידן ה”פרומפט” ותחילתו של עידן ה”משימה”.
מתכנתים כבר לא כותבים פונקציות; הם מנהלים צוותי סוכנים. עם Claude Code, ניתן להקים צוות סוכנים שעובדים יחד על פרויקט. עם GPT-5.3-Codex, ניתן לתת הוראה כמו “בנה לי דף נחיתה עם אנימציות גלילה ומערכת רישום”, והמודל פשוט מבצע זאת, כולל בחירת צבעים אסתטית וחיבור לבסיס נתונים.
היכולת של Claude Opus 4.6 לנתח נתונים בתוך אקסל וליצור מצגות PowerPoint באופן אוטונומי משנה את תפקיד האנליסט. המודל יכול לקרוא 500 דוחות שנתיים של חברות שונות ולייצר דו”ח השוואתי תוך דקות – משימה שבעבר לקחה שבועות לצוות שלם.
אנחנו נכנסים למרוץ חימוש. GPT-5.3-Codex יכול למצוא פרצות אבטחה בקוד פתוח במהירות שיא. מנגד, Anthropic משקיעה במערכות ניטור בזמן אמת כדי לחסום שימוש לרעה. הארגונים שישרדו הם אלו שישתמשו במודלים האלו כדי להגן על עצמם (Cyber Defense) לפני שהתוקפים ישתמשו בהם.
אין מנצח אחד, כי המטרות השתנו.
אם אתה זקוק לכוח ביצוע, למהירות, לסוכן שיודע לתפעל את המחשב שלך ולבנות אפליקציות מאפס – GPT-5.3-Codex הוא המלך החדש. הוא ה”מהנדס” האידיאלי.
אם אתה זקוק לעומק מחקרי, לזיכרון לטווח ארוך מאוד, לדיוק במשימות פיננסיות ומשפטיות וליכולת “לחשוב” על הבעיה לפני הפתרון – Claude Opus 4.6 הוא ה”אסטרטג” שאתה צריך לידך.
פברואר 2026 הוא רק ההתחלה. המודלים האלו לא רק עובדים בשבילנו – הם משנים את הדרך שבה אנחנו מגדירים “עבודה”.

הכירו את Kimi K2.5: מודל הקוד הפתוח החזק בעולם. עם טכנולוגיית Agent Swarm המפעילה 100 סוכנים במקביל, גלו איך הוא

ב-16 בינואר 2026, OpenAI הטילה פצצה בעולם הטכנולוגיה כשהודיעה רשמית: הפרסומות מגיעות ל-ChatGPT והמהלך עורר סערה בקרב המשתמשים.

בעולם שבו המידע הרפואי שלנו מפוזר בין אפליקציות כושר, תיקים רפואיים דיגיטליים, שעונים חכמים וקבצי PDF, קשה מאוד לקבל תמונה
השאירו פרטים לחזרה