Gemini 3.5 Flash מקבל Computer Use מובנה

אמיר משה

28 ביוני, 2026

במשך שנים השאלה הגדולה הייתה כמה טוב מודל AI יודע לענות. עכשיו השאלה משתנה: כמה טוב הוא יודע לפעול. Gemini 3.5 Flash מקבל Computer Use ככלי מובנה, כלומר היכולת לראות מסך, להבין מה רואים, ולבצע פעולות ממש כמו משתמש אנושי. זו לא עוד תשובה חכמה אלא יד שמזיזה את העכבר, וזה בדיוק מה שהופך מודל שפה לסוכן AI שמסוגל לעשות עבודה אמיתית.

Google הודיעה על המהלך ב-24 ביוני 2026, ומיצבה אותו ככלי לבניית אייג’נטים שיכולים לראות, לחשוב ולפעול בסביבות דפדפן, מובייל ודסקטופ. בואו נפרק מה השתנה, למה זה מטלטל את השוק, ואיך מתחילים.

מה זה Computer Use מובנה ב-Gemini 3.5 Flash

עד עכשיו, יכולת ה-Computer Use של Google הייתה זמינה כמודל נפרד ועצמאי המבוסס על Gemini 2.5. המשמעות הייתה שצריך לנתב בקשות בין מודלים שונים: אחד שחושב, אחד שפועל על המסך. בגרסה החדשה היכולת הזו משולבת באופן נטיבי בתוך מודל ה-Flash המרכזי. במילים אחרות, אותו מודל שמנהל את השיחה הוא גם זה שלוחץ, גולל וממלא טפסים.

זה אולי נשמע כמו פרט טכני, אבל ההשלכות עצומות. שילוב היכולת בתוך המודל הראשי הופך את בניית האייג’נטים לפשוטה, מהירה וזולה יותר, ומבטל את הסיבוכיות של תזמורת בין כמה מודלים.

לראות, לחשוב, לפעול: איך זה עובד

הרעיון המרכזי הוא לולאה אחת רציפה: המודל מסתכל על המסך, מבין את ההקשר, מחליט מה הצעד הבא, ומבצע אותו, ואז חוזר חלילה עד שהמשימה הושלמה.

מודל אחד במקום ניתוב בין מודלים

היתרון הגדול של השילוב הנטיבי הוא שסוכן אחד מבוסס Gemini 3.5 Flash יכול לראות מסך, לחפש משהו ב-Search, ולפעול במפה, הכל בלי לנתב בקשות בין מודלים נפרדים. זרימת העבודה הופכת חלקה ומהירה יותר, וזו קפיצה ברורה מהדור הקודם שהכרנו בGemini 3.1.

דוגמה: לראות מסך, לחפש ולפעול במפה

תארו לעצמכם סוכן שמקבל משימה לתכנן מסלול: הוא רואה את המסך, מחפש את היעד ב-Search, פותח מפה, בודק זמני נסיעה ומבצע את הבחירה. כל זה בתוך רצף אחד, בלי שמפתח יצטרך לחבר ידנית בין שירותים שונים.

פחות חיבורים, יותר אוטונומיה

ככל שהמודל מטפל בעצמו ביותר שלבים, כך נדרש פחות קוד דבק מסביבו. התוצאה היא אייג’נטים אוטונומיים יותר, שמסוגלים להתמודד עם משימות ארוכות טווח בלי התערבות אנושית בכל צעד.

דפדפן, מובייל ודסקטופ

היכולת לא מוגבלת לסביבה אחת. מפתחים יכולים לבנות אייג’נטים שפועלים על דפדפן, על מובייל ועל דסקטופ. זה פותח דלת למשימות אמיתיות כמו בדיקות תוכנה רציפות, עבודת ידע באפליקציות מקצועיות, ניתוח אפליקציות והחזרת רשימת פיצ’רים מקוטלגת, ואפילו ביקורת נגישות על תיעוד.

חשבו על מה שזה אומר בפועל. צוות QA יכול להריץ סוכן שבודק שוב ושוב מסכים שלמים באפליקציה ומדווח על תקלות, בלי שאדם יצטרך לחזור על אותן פעולות מאות פעמים. עובד ידע יכול להאציל לסוכן משימות חוזרות שמתפרשות על פני כמה אפליקציות, כמו איסוף נתונים ממערכת אחת והזנתם לאחרת. אלו בדיוק המשימות הארוכות והמייגעות שעד היום דרשו אדם, ועכשיו אפשר להעביר אותן לאוטומציה.

ביצועים ועלות: למה זה מטלטל את השוק

הסיפור הופך מעניין במיוחד כשמסתכלים על המספרים. כאן Gemini 3.5 Flash מציג שילוב שקשה להתעלם ממנו: ביצועים גבוהים במחיר נמוך.

ציון OSWorld של 78.4

במבחן OSWorld-Verified, שבודק יכולת ביצוע משימות אמיתיות במחשב, Gemini 3.5 Flash מקבל ציון של 78.4. לשם השוואה, GPT-5.5 מקבל 78.7, כלומר ביצועים כמעט זהים. ההבדל האמיתי הוא לא בציון אלא במחיר.

כמעט כמו GPT-5.5 בשליש מהמחיר

Gemini 3.5 Flash מספק ביצועים דומים לאלו של GPT-5.5 בערך בשליש מהעלות לטוקן. עבור מי שמריץ אייג’נטים בהיקף נרחב, שבהם כל משימה צורכת אלפי טוקנים, הפער הזה מתורגם לחיסכון דרמטי.

מחיר לטוקן

בפועל, Gemini 3.5 Flash עולה כ-1.5 דולר למיליון טוקני קלט ו-9 דולר למיליון טוקני פלט, לעומת 5 דולר ו-30 דולר בהתאמה ב-GPT-5.5. זה הופך אוטומציה בקנה מידה גדול לכדאית הרבה יותר.

למה זה משנה לארגונים

ביצועים גבוהים בעלות נמוכה הם בדיוק מה שמאפשר לארגון להפעיל אייג’נטים על משימות ארוכות טווח ולא רק בהדגמות. המשוואה הכלכלית סוף סוף מסתדרת, וזה מה שמזיז אוטומציה מבוססת AI מהמעבדה אל הייצור.

כשעלות ההרצה גבוהה, כל אוטומציה נבחנת בחשדנות וכל משימה צריכה להצדיק את עצמה. כשהעלות צונחת לשליש, פתאום משתלם להריץ סוכן גם על משימות שוליות יותר, וההיקף של מה שאפשר להפוך לאוטומטי גדל דרמטית. זו הסיבה שהמחיר, ולא רק הציון במבחן, הוא הסיפור האמיתי כאן.

בטיחות: שתי מערכות הגנה לארגונים

מודל שיכול ללחוץ ולפעול בעצמו הוא עוצמתי, אבל גם מסוכן אם אין עליו בקרה. Google מודעת לכך ומשחררת שתי מערכות הגנה אופציונליות לארגונים.

אישור מפורש לפעולות רגישות

המערכת הראשונה מאפשרת לארגון לדרוש אישור מפורש מהמשתמש לפני ביצוע פעולות רגישות או בלתי הפיכות, כמו מחיקה, תשלום או שליחת מידע. כך נשמרת שכבת פיקוח אנושי על הצעדים הקריטיים.

עצירה אוטומטית מפני prompt injection

המערכת השנייה עוצרת משימות באופן אוטומטי אם מזוהה ניסיון של הזרקת הוראה עקיפה (indirect prompt injection), טכניקה שבה תוקף מנסה להחביא פקודות זדוניות בתוך תוכן שהמודל קורא, למשל בעמוד אינטרנט או במסמך. זו הגנה קריטית כשהמודל פועל בחופשיות על דפדפן ואפליקציות, כי סוכן שמבצע פעולות בעצמו הוא יעד מפתה לתקיפה, ושתי המערכות יחד נותנות לארגון את הביטחון להפעיל אותו על משימות אמיתיות.

מערכת הגנה של Gemini 3.5 Flash שעוצרת פעולות רגישות ו-prompt injection

איך מתחילים להשתמש

מפתחים וארגונים יכולים להתחיל להשתמש ב-Computer Use של Gemini 3.5 Flash דרך ה-Gemini API ודרך Gemini Enterprise Agent Platform. ההמלצה הפרקטית: התחילו ממשימה מוגדרת היטב וצרה, הפעילו את מערכות ההגנה, ובדקו את התנהגות הסוכן בסביבה מבוקרת לפני שמרחיבים אותו למשימות רגישות יותר.

שווה גם להגדיר מראש מדדי הצלחה ברורים לכל משימה, כדי שתוכלו לדעת אם הסוכן באמת חוסך זמן או רק מעביר אותו למקום אחר. התחילו עם משימה אחת שחוזרת על עצמה הרבה, מדדו את התוצאה, ורק אז הרחיבו. כך בונים אמון במערכת בצורה הדרגתית, במקום לזרוק עליה משימה קריטית כבר ביום הראשון ולהתאכזב.

למה זה הצעד הבא של ה-AI

המעבר מ”מודל שעונה” ל”מודל שפועל” הוא אחד השינויים המשמעותיים בתחום. כשהיכולת לראות ולפעול על מסך הופכת לחלק סטנדרטי ממודל שפה זול ומהיר, כל אפליקציה וכל תהליך עבודה הופכים למועמדים לאוטומציה חכמה. זה אותו כיוון שראינו אצל מתחרים כמו ChatGPT Agent, אבל עכשיו במחיר ובמהירות שמנגישים אותו להרבה יותר ארגונים.

חשוב גם לזכור שזה רק הצעד הראשון. ככל שמודלים נוספים יקבלו יכולות דומות, נראה תחרות שתדחוף את הביצועים מעלה ואת המחירים מטה, בדיוק כפי שקרה עם מודלי השפה עצמם. מי שמתחיל להתנסות עכשיו בבניית אייג’נטים שפועלים על מחשב, צובר יתרון וידע מעשי שיהיה שווה זהב כשהטכנולוגיה תבשיל לחלוטין.

השורה התחתונה: היכולת לפעול על מחשב כבר אינה פיצ’ר ניסיוני, אלא רכיב מובנה במודל מרכזי, וזה מסמן את תחילתו של עידן האייג’נטים המעשיים.

שאלות נפוצות

מה זה Computer Use ב-Gemini 3.5 Flash?

זו יכולת מובנית שמאפשרת למודל לראות מסך, להבין אותו ולבצע פעולות כמו לחיצה, גלילה ומילוי טפסים, כדי לבנות אייג’נטים שפועלים בדפדפן, במובייל ובדסקטופ.

מתי Google השיקה את היכולת?

ההכרזה נעשתה ב-24 ביוני 2026, והיכולת זמינה למפתחים דרך ה-Gemini API ו-Gemini Enterprise Agent Platform.

איך Gemini 3.5 Flash משתווה ל-GPT-5.5?

במבחן OSWorld-Verified הוא מקבל 78.4 לעומת 78.7 של GPT-5.5, ביצועים כמעט זהים, אך בערך בשליש מהמחיר לטוקן.

מה ההבדל מהגרסה הקודמת של Computer Use?

בעבר היכולת הייתה מודל נפרד מבוסס Gemini 2.5. עכשיו היא משולבת נטיבית בתוך מודל ה-Flash המרכזי, כך שסוכן אחד עושה הכל בלי ניתוב בין מודלים.

האם זה בטוח לשימוש ארגוני?

Google מציעה שתי מערכות הגנה אופציונליות: דרישת אישור מפורש לפעולות רגישות, ועצירה אוטומטית בזיהוי ניסיון הזרקת הוראה עקיפה.

סיכום

Gemini 3.5 Flash עם Computer Use מובנה מסמן נקודת מפנה: המודלים כבר לא רק עונים, הם משתמשים במחשב. השילוב של יכולת לראות, לחשוב ולפעול על דפדפן, מובייל ודסקטופ, יחד עם ביצועים גבוהים, מחיר נמוך ומערכות בטיחות לארגונים, הופך את בניית האייג’נטים לנגישה כמו שלא הייתה. זה הרגע שבו אוטומציה חכמה עוברת מהמעבדה לעבודה היומיומית. כדי להישאר מעודכנים בכל ההתפתחויות החמות בעולם הבינה המלאכותית, המשיכו לעקוב אחר המגזין שלנו.