
Kling O1 המודל המולטימודאלי המאוחד הראשון בעולם ליצירת וידאו עם בינה מלאכותית
מודל ה-Kling O1 מסמן נקודת מפנה משמעותית בעולם הבינה המלאכותית היוצרת, במיוחד בתחום יצירת ועריכת הווידאו. הוא מוצג כמודל הווידאו
למרות שכלים כמו מידג’רני ודאלי הפכו להיות סטנדרט ליצירת תמונות מרהיבות, האתגר של שילוב טקסטים בצורה מדויקת ואסתטית עדיין עומד בעינו. במאמר זה נבדוק את היכולת הנוכחית של המודלים להתמודד עם טקסטים כחלק מהגרפיקה בתמונה.
כדי לא להקשות על המודלים יותר מידי הלכנו על טקסט קצר, שכן ככל שהטקסט יותר ארוך כך סביר שיהיה למודל יותר קשה להתמודד עם השילוב של הטקסט בצורה טובה ללא טעויות.
הפרומפט שאותו בדקתי הוא “מטבע זהב עם הכיתוב “Amir Coin” מונח על השולחן“
מטרת הניסוי הייתה לבחון שלושה אלמנטים מרכזיים:
1️⃣ קריאות הכיתוב: עד כמה הטקסט ברור ואפשר לקרוא אותו.
2️⃣ התאמה עיצובית: האם הטקסט משתלב בצורה הרמונית עם התמונה.
3️⃣ נראות התמונה הכללית: האם שילוב של הטקסט לא פגע בנראות הכללית של התמונה.
מודל שמצטיין באסתטיקה, אך לא מתמחה בטקסטים.
תוצאה: הטקסטים נראים כחלק מהעיצוב, אך הקריאות לא תמיד ברורה. במקרה הזה הטקסט אכן קריא אך נראה שלא ממש ממורכז. והעיצוב של המטבע קצת נפגע שכן מופיע שם ציור אבל הוא לא מאוד ברור ואיאפשר שלא לשים לב שהמסגרת של המטבע קצת עקומה.
דאלי הוא הכלי הותיק ביותר בתחום יצירת התמונות ב-AI והרבה זמן לא קיבל עדכון חדש.
תוצאה: כמו שאתם רואים הטקסט לא הופיע בכלל. נראה שהוא ניסה לשלב טקסטים בערבית ככל הנראה כי המילה “אמיר” גרמה לו לקחת השראה מהאמירויות.
מודל התמונות העדכני ביותר של גוגל שמופעל באמצעות צ’אט Gemini עשה עבודה די בינונית.
תוצאה: הכיתוב לא מספיק מדוייק ומופיע במסגרת של המטבע. באמצע ככל הנראה ג’יבריש בערבית – גם כאן המילה “אמיר” כנראה לקחה גם אותו לאמירויות
מידג’רני, ריקראפט, אידאוגרם ופלוקס הצליחו לייצר תמונה עם טקסט קריא וברור.
מידג’רני וריקראפט הצליחו לייצר את התמונה הכי מעניינת מבחינת הקומפוזיציה.
פיירפליי איכזב ודאלי לא היה בכיוון בכלל.
אין ספק שאידאוגרם עשה את העבודה הכי מדוייקת מבחינת הכיתוב ויצר גם את המטבע הכי מעניין מבחינת הנראות שלו. הוא קצת כשל בקומפוזיציה אבל לדעתי הוא המנצח שלנו.
במודל פלוקס (Flux) ניתן להשתמש בכמה כלים. קראו עוד בכתבה המלאה על מודלי Flux:

מודל ה-Kling O1 מסמן נקודת מפנה משמעותית בעולם הבינה המלאכותית היוצרת, במיוחד בתחום יצירת ועריכת הווידאו. הוא מוצג כמודל הווידאו

בשלהי שנת 2025, עולם הטכנולוגיה עד להתפתחות דרמטית שמעידה על שינוי מהותי במאזן הכוחות בתעשיית הבינה המלאכותית. גוגל, שלאורך שלוש

היום (חמישי), גוגל השיקה את ננו בננה Pro- או בשמו הרשמי Gemini 3 Pro Image והוא מבוסס על המודל החדש
השאירו פרטים לחזרה