שילוב של טקסטים בתמונות AI: השוואה בין 8 מודלי התמונות המובילים

אמיר משה

21 בדצמבר, 2024

🖼️ איזה כלי AI הכי טוב בשילוב טקסטים בתוך תמונות?

למרות שכלים כמו מידג’רני ודאלי הפכו להיות סטנדרט ליצירת תמונות מרהיבות, האתגר של שילוב טקסטים בצורה מדויקת ואסתטית עדיין עומד בעינו. במאמר זה נבדוק את היכולת הנוכחית של המודלים להתמודד עם טקסטים כחלק מהגרפיקה בתמונה.

📜 הפרומפט שבדקנו

כדי לא להקשות על המודלים יותר מידי הלכנו על טקסט קצר, שכן ככל שהטקסט יותר ארוך כך סביר שיהיה למודל יותר קשה להתמודד עם השילוב של הטקסט בצורה טובה ללא טעויות.
הפרומפט שאותו בדקתי הוא “מטבע זהב עם הכיתוב “Amir Coin” מונח על השולחן“

מטרת הניסוי הייתה לבחון שלושה אלמנטים מרכזיים:
1️⃣ קריאות הכיתוב: עד כמה הטקסט ברור ואפשר לקרוא אותו.
2️⃣ התאמה עיצובית: האם הטקסט משתלב בצורה הרמונית עם התמונה.
3️⃣ נראות התמונה הכללית: האם שילוב של הטקסט לא פגע בנראות הכללית של התמונה.

👈 קראו גם איזה מודל AI יצר את התמונה הכי מפורטת

🖌️ המודלים שנבחנו והתוצאות

1. מידג'רני (MidJourney)

מודל שמצטיין באסתטיקה, אך לא מתמחה בטקסטים.
תוצאה: הטקסטים נראים כחלק מהעיצוב, אך הקריאות לא תמיד ברורה. במקרה הזה הטקסט אכן קריא אך נראה שלא ממש ממורכז. והעיצוב של המטבע קצת נפגע שכן מופיע שם ציור אבל הוא לא מאוד ברור ואיאפשר שלא לשים לב שהמסגרת של המטבע קצת עקומה.

2. פיירפליי (Adobe Firefly)

פיירפליי מבית אדובי מפתיע לרעה בכל פעם מחדש, במיוחד כשהוא משלב טקסטים. תוצאה: שילוב של כמה אותיות בלבד ומשהו שקצת דומה למה שביקשנו אבל לא יותר.

3. ריקראפט (Recraft)

מודל ריקראפט הוא פשוט אך עוצמתי, שמתאים למשתמשים שרוצים תוצאות מהירות. עם ממשק קנבס נוח ואינטואיטיבי הוא גם יותר תוצאות לא רעות בכלל. תוצאה: הטקסט היה קריא, זה לא פגע בעיצוב של המטבע והקומפוזיציה של התמונה נשארה הרמונית.

4. אידאוגרם (Ideogram)

אידאוגרם התפרסם בעיקר בזכות היכולת שלו לשלב טקסטים בתמונות עוד בתקופה שזה לא היה אפשרי בכלל. הציפיות ממנו היו גבוהות מאוד. תוצאה: מרשימה מאוד! הכיתוב היה מדוייק מאוד ברוב התוצאות שהתקבלו ממנו. גם קריא וגם משתלב בתורה מדוייקת בתמונה. מה שכן ניתן לראות שהקומפוזיציה קצת נפגעה – שכן התמונה של המטבע נראית כמו תיעוד של אוסף מטבעות.

5. דאלי (DALL·E)

דאלי הוא הכלי הותיק ביותר בתחום יצירת התמונות ב-AI והרבה זמן לא קיבל עדכון חדש.
תוצאה: כמו שאתם רואים הטקסט לא הופיע בכלל. נראה שהוא ניסה לשלב טקסטים בערבית ככל הנראה כי המילה “אמיר” גרמה לו לקחת השראה מהאמירויות.

6. פלוקס (Flux)

פלוקס הוא מודל חדש שמפתיע בהרבה תחומים ובמקרה הזה הוא אכן עמד בדרישה. תוצאה: הכיתוב מדוייק אבל הקומפוזיציה קצת נפגעה. בדומה לתוצאה באידאוגרם גם כאן זה נראה כמו צילום כמו בקטלוג. מה גם שהשולחן לא בא לידי ביטוי בתמונה.

7. Grok 2 (של X - Twitter)

המודל היחסית חדש והמפתיע Grok מבית X שיוצר תמונות ריאליסטיות מדהימות, עושה עבודה מעולה גם בכל הקשור לטקסטים תוצאה: הכיתוב מדוייק וקלע לבקשה אבל ניתן לשים לב שהכלי לא “השקיע” בעיצוב של המטבע ולא יצר שום עניין מיוחד. הוא בעיקר מילא אחר הבקשה.

8. Imagen 3 (של גוגל)

מודל התמונות העדכני ביותר של גוגל שמופעל באמצעות צ’אט Gemini עשה עבודה די בינונית.

תוצאה: הכיתוב לא מספיק מדוייק ומופיע במסגרת של המטבע. באמצע ככל הנראה ג’יבריש בערבית – גם כאן המילה “אמיר” כנראה לקחה גם אותו לאמירויות

🔍 מה המסקנות מכל זה?

מידג’רני, ריקראפט, אידאוגרם ופלוקס הצליחו לייצר תמונה עם טקסט קריא וברור.
מידג’רני וריקראפט הצליחו לייצר את התמונה הכי מעניינת מבחינת הקומפוזיציה.
פיירפליי איכזב ודאלי לא היה בכיוון בכלל.

🏆 אז מי ניצח במבחן הפרומפט המפורט?

אין ספק שאידאוגרם עשה את העבודה הכי מדוייקת מבחינת הכיתוב ויצר גם את המטבע הכי מעניין מבחינת הנראות שלו. הוא קצת כשל בקומפוזיציה אבל לדעתי הוא המנצח שלנו.