לוגו אמיר משה בינה מלאכותית

אזור אישי

ChatGPT Agent: הסוכן שבא לשנות את עולם הבינה המלאכותית

מה זה ChatGPT Agent ואיך הוא עובד

OpenAI השיקה השבוע את ChatGPT Agent, טכנולוגיה חדשנית המאפשרת לבינה המלאכותית לא רק לחשוב ולהשיב, אלא גם לפעול בעצמה באמצעות מחשב וירטואלי. זהו צעד מהפכני שמעביר אותנו מעידן של שיחות עם AI לעידן שבו הבינה המלאכותית יכולה לבצע משימות מורכבות בעולם הדיגיטלי. החדשנות הזו מאפשרת למשתמשים לבקש מ-ChatGPT לטפל בבקשות מסובכות כמו “תסתכל על היומן שלי ותכין לי סיכום על הפגישות הקרובות עם לקוחות על בסיס חדשות אחרונות”, או “תתכנן ותקנה מרכיבים להכנת ארוחת בוקר יפנית לארבעה אנשים”, ואפילו “תנתח שלושה מתחרים ותכין מצגת מקצועית”.

הטכנולוגיה החדשה מביאה יחד שלושה כוחות שפותחו בנפרד בעבר: את היכולת של Operator לאינטראקציה עם אתרי אינטרנט, את הכישרון של Deep Research בסינתזה של מידע, ואת האינטליגנציה והשטף השיחה של ChatGPT הרגיל. המערכת החדשה מבוססת על מחשב וירטואלי שבו ChatGPT יכול לנווט בין אתרים, לסנן תוצאות, לבקש מהמשתמש להתחבר לאתרים כשצריך, להריץ קוד, לנתח מידע ואפילו לספק מצגות וגיליונות אלקטרוניים ערוכים שמסכמים את הממצאים. החשוב ביותר הוא שהמשתמש נשאר בשליטה מלאה – ChatGPT מבקש אישור לפני פעולות משמעותיות, והמשתמש יכול להפסיק, להשתלט על הדפדפן או לעצור משימות בכל נקודה.

chatgpt agent

היכולות החדשות והשימושים המעשיים

ChatGPT Agent מצויד בחבילה מלאה של כלים מתקדמים: דפדפן ויזואלי שמאפשר אינטראקציה עם האינטרנט דרך ממשק גרפי, דפדפן טקסטואלי לשאילתות פשוטות יותר, טרמינל לביצוע פקודות, וגישה ישירה ל-API. הסוכן יכול גם לנצל את החיבורים של ChatGPT לאפליקציות כמו Gmail ו-GitHub, מה שמאפשר לו לחפש מידע רלוונטי ולהשתמש בו בתגובותיו. המשתמש יכול להתחבר לכל אתר על ידי השתלטות על הדפדפן, מה שמאפשר לסוכן לחקור ולבצע משימות ברמה עמוקה יותר.

המערכת מתאפיינת בזרימות עבודה איטרטיביות ושיתופיות, הרבה יותר אינטראקטיביות וגמישות ממודלים קודמים. בזמן שChatGPT עובד, המשתמש יכול להתערב בכל נקודה כדי להבהיר הוראות, לכוון לתוצאות רצויות, או לשנות את המשימה לחלוטין. המערכת תמשיך מהנקודה בה הפסיקה, עם המידע החדש, מבלי לאבד את ההתקדמות הקודמת. כמו כן, ChatGPT עצמו עשוי לבקש פרטים נוספים כשצריך כדי לוודא שהמשימה נשארת מיושרת עם המטרות של המשתמש.

היכולות המאוחדות האלה מרחיבות משמעותית את התועלת של ChatGPT בהקשרים יומיומיים ומקצועיים. בעבודה, אפשר לבצע אוטומציה של משימות חוזרות כמו המרה של צילומי מסך או דשבורדים למצגות מקצועיות, סידור מחדש של פגישות, תכנון והזמנה של ימי גיבוש, ועדכון גיליונות אלקטרוניים עם נתונים פיננסיים חדשים תוך שמירה על אותו עיצוב. בחיים האישיים, אפשר להשתמש בו כדי לתכנן ולהזמין מסלולי נסיעה בקלות, לעצב ולהזמין מסיבות ערב שלמות, או למצוא מומחים ולתאם פגישות.

chatgpt agent benchmarks
chatgpt agent benchmarks

ביצועים מתקדמים ותוצאות מרשימות

המודל החדש מציג ביצועים מתקדמים במספר מבחנים חשובים. במבחן Humanity’s Last Exam, שמודד את הביצועים של בינה מלאכותית במגוון רחב של נושאים ברמת מומחים, המודל שמפעיל את ChatGPT Agent השיג ציון חדש של 41.6 אחוז. כאשר הם הפעילו אסטרטגיית rollout פשוטה – הרצה של עד שמונה ניסיונות בו זמנית ובחירת התוצאה עם הביטחון העצמי הגבוה ביותר – הציון עלה ל-44.4 אחוז.

ב-FrontierMath, הנחשב למבחן המתמטיקה הקשה ביותר הידוע, שכולל בעיות חדשות שלא פורסמו ושלעיתים לוקח למתמטיקאים מומחים שעות או אפילו ימים לפתור, ChatGPT Agent השיג 27.4 אחוז דיוק עם שימוש בכלים כמו גישה לטרמינל לביצוע קוד. זה עולה בהרבה על המודלים הקודמים. המערכת גם הוערכה במבחנים שמדמים משימות מורכבות מהעולם האמיתי, שבהם התוצאות של ChatGPT Agent היו דומות או טובות יותר מאלה של בני אדם בכמחצית מהמקרים.

במבחן DSBench, שמיועד להעריך סוכנים במשימות מדעי נתונים מציאותיות הכוללות ניתוח נתונים ומידול, ChatGPT Agent עבר בצורה משמעותית את הביצועים האנושיים. ב-SpreadsheetBench, שמעריך מודלים על יכולתם לערוך גיליונות אלקטרוניים הנגזרים מתרחישי עולם אמיתיים, ChatGPT Agent התעלה על המודלים הקיימים בהפרש משמעותי. כאשר קיבל את היכולת לערוך גיליונות ישירות, ChatGPT Agent השיג ציון עוד יותר גבוה של 45.5 אחוז, לעומת 20.0 אחוז של Copilot in Excel.

chatgpt agent benchmarks
chatgpt agent benchmarks

בטיחות וסיכונים חדשים

השקה זו מסמנת את הפעם הראשונה שמשתמשים יכולים לבקש מ-ChatGPT לנקוט פעולות ברשת. זה מציג סיכונים חדשים, במיוחד מכיוון שChatGPT Agent יכול לעבוד ישירות עם הנתונים של המשתמש, בין אם זה מידע שנגיש דרך חיבורים או אתרי אינטרנט שהמשתמש התחבר אליהם באמצעות מצב השתלטות. החברה חיזקה את הבקרות החזקות ממחקר הרינטית של Operator והוסיפה הגנות לאתגרים כמו טיפול במידע רגיש ברשת החיה, הגעה רחבה יותר של משתמשים, וגישה מוגבלת לרשת הטרמינל.

דגש מיוחד הושם על הגנה מפני מניפולציה עוינת דרך הזרקת הנחיות, שהיא סיכון למערכות סוכניות באופן כללי. הזרקות הנחיות הן ניסיונות של צדדים שלישיים לתפעל את ההתנהגות דרך הוראות זדוניות שChatGPT Agent עשוי להיתקל בהן ברשת תוך ביצוע משימה. לדוגמה, הנחיה זדונית נסתרת בדף אינטרנט יכולה לרמות את הסוכן לנקוט פעולות לא מכוונות, כמו שיתוף נתונים פרטיים מחיבור עם התוקף, או נקיטת פעולה מזיקה באתר שהמשתמש התחבר אליו.

החברה יישמה גם הגנות סביב טעויות מודל, במיוחד מאז שהמודל יכול כעת לבצע משימות שמשפיעות על העולם האמיתי. אישור מפורש של משתמש נדרש לפני פעולות עם השלכות בעולם האמיתי, כמו ביצוע רכישה. משימות קריטיות מסוימות, כמו שליחת אימיילים, דורשות פיקוח פעיל של המשתמש. ChatGPT מאומן לסרב באופן פעיל למשימות בסיכון גבוה כמו העברות בנקאיות. בנוסף, הוחלו בקרות נוספות להגביל את הנתונים שהמודל יכול לגשת אליהם, כולל בקרות פרטיות וטיפול בטוח במידע אישי.

עם היכולות המוגברות של המודל, החברה החליטה להתייחס ל-ChatGPT Agent כבעל יכולות ביולוגיות וכימיות גבוהות תחת מסגרת המוכנות שלהם, והפעילה את ההגנות הקשורות. למרות שאין להם עדות מכרעת שהמודל יכול לעזור באופן משמעותי לחובבן ליצור נזק ביולוגי חמור, הם נוקטים זהירות ויישמו את ההגנות הנדרשות כבר עכשיו. כתוצאה מכך, למודל הזה יש את מחסנית הבטיחות הכי מקיפה עד כה עם הגנות משופרות לביולוגיה.

chatgpt agent benchmarks
chatgpt agent benchmarks

זמינות ומגבלות נוכחיות

ChatGPT Agent מתחיל להתפרס היום למשתמשי Pro, Plus ו-Team. משתמשי Pro יקבלו גישה עד סוף היום, בעוד שמשתמשי Plus ו-Team יקבלו גישה במהלך הימים הקרובים. משתמשי Enterprise ו-Education יקבלו גישה בשבועות הקרובים. משתמשי Pro יקבלו 400 הודעות בחודש, בעוד שמשתמשים רגילים יקבלו 40 הודעות חודשיות, עם שימוש נוסף זמין באמצעות אפשרויות גמישות מבוססות קרדיט. החברה עדיין עובדת על הפעלת הגישה לאזור הכלכלי האירופי ושוויץ.

ChatGPT Agent עדיין בשלביו הראשונים ויכול לבצע מגוון רחב של משימות מורכבות, אבל הוא עדיין יכול לעשות טעויות. התכונה של יצירת מצגות נמצאת כרגע בשלב בטא, והפלטים יכולים לפעמים להרגיש בסיסיים בעיצוב והפיניש שלהם, במיוחד כשמתחילים בלי מסמך קיים. החברה התמקדה ביכולות הראשוניות של המודל ביצירת חפצים שמארגנים מידע בזרימה ובפורמט המתאים למצגות, עם אלמנטים כמו טקסט, תרשימים, תמונות וצורות שניתנים לעריכה בקלות לאחר הייצוא.

למרות המגבלות הנוכחיות, החברה צופה שיפורים מתמשכים ביעילות, העומק והרב-גוניות של ChatGPT Agent לאורך זמן, כולל אינטראקציות חלקות יותר ככל שהם ממשיכים להתאים את רמת הפיקוח הנדרשת מהמשתמש כדי להפוך אותו לשימושי יותר תוך הבטחת שהוא בטוח לשימוש.

chatgpt agent benchmarks
chatgpt agent benchmarks
chatgpt agent benchmarks

סרטון השקת ChatGPT Agent

סיכום ומבט לעתיד

OpenAI השיקה את ChatGPT Agent, טכנולוגיה חדשנית המאפשרת לבינה המלאכותית לא רק לענות על שאלות אלא גם לבצע משימות מורכבות בעולם הדיגיטלי. המערכת משלבת את יכולות Operator לאינטראקציה עם אתרי אינטרנט, Deep Research לסינתזה של מידע, ואת ChatGPT הרגיל לשיחה.

הכלי יכול לבצע משימות כמו יצירת מצגות מקצועיות, ניתוח מתחרים, תכנון נסיעות, וניהול גיליונות אלקטרוניים. הוא השיג ביצועים מרשימים במבחנים מתקדמים, כולל 44.4% במבחן Humanity’s Last Exam ו-27.4% במבחן FrontierMath הקשה ביותר.

המערכת מתחילה להתפרס למשתמשי Pro (400 הודעות/חודש) ו-Plus/Team (40 הודעות/חודש), עם דגש על בטיחות והגנות מפני מניפולציה עוינת. למרות שעדיין בשלביה הראשונים ויכולה לעשות טעויות, זהו צעד מהפכני לכיוון בינה מלאכותית שיכולה לפעול בעולם האמיתי.

אולי יעניין אותך גם:

השאירו פרטים לחזרה