نعرض لكم زوارنا أهم وأحدث الأخبار فى المقال الاتي:
مقارنة بين نموذجي Veo 2 و Sora.. أيهما الأفضل في توليد الفيديو بالذكاء الاصطناعي؟ - الصبح, اليوم الأحد 22 ديسمبر 2024 10:18 صباحاً
في خضم التطورات المتسارعة في مجال الذكاء الاصطناعي، نشهد سباقًا محمومًا بين الشركات التقنية لتقديم حلول مبتكرة تغير طريقة إنتاجنا للمحتوى الرقمي، ومن بين هذه الحلول، تبرز نماذج توليد الفيديو بالذكاء الاصطناعي كأحد أبرز الحلول الواعدة، إذ تمكننا هذه النماذج من تحويل النصوص والأفكار إلى مقاطع فيديو واقعية بجودة احترافية.
ويشتعل التنافس حاليًا بين أكبر قوتين في هذا المجال، وهما: جوجل بنموذجها القوي (Veo 2)، وشركة (OpenAI) بنموذجها Sora، إذ يسعى كل منهما إلى تقديم الأفضل في إنشاء الفيديو بالذكاء الاصطناعي.
وبينما حظي نموذج (Sora) باهتمام كبير فور إطلاقه، جاء نموذج (Veo-2) بعد ذلك بأيام قليلة ليعيد تعريف معايير هذا المجال من خلال قدرات فائقة في جوانب متعددة تشمل: الدقة العالية، والقدرة العالية على فهم قوانين الفيزياء التي تحكم حركة الأجسام وتفاعلها في الواقع، والتحكم الإبداعي المتقدم.
لذلك سنجري في هذا المقال مقارنة شاملة بينهما من حيث جودة الفيديو، والقدرات التقنية، وسهولة الاستخدام، بهدف الإجابة على السؤال المحوري: أيهما الأفضل في توليد الفيديو بالذكاء الاصطناعي، Veo 2 أم Sora؟
أولًا، المقارنة الفنية بين نموذجي Veo 2 و Sora:
يُعدّ فهم المواصفات الفنية لكلا النموذجين أمرًا بالغ الأهمية لاختيار الأداة المناسبة للاحتياجات الإبداعية، إليك مقارنة مفصلة تُبرز القدرات الرئيسية لكل منهما:
المواصفات | نموذج (Veo 2) | نموذج (Sora) |
دقة الفيديو | قادر على إنتاج مقاطع فيديو بدقة قدرها 4K التي تبلغ 3840 × 2160 بكسلًا. | قادر على إنتاج مقاطع فيديو بدقة قدرها 1080 بكسلًا، التي تبلغ 1920 × 1080 بكسلًا. |
مدة الفيديو | تصل إلى دقيقتين. | حتى 20 ثانية فقط. |
طرق الإدخال | مطالبات نصية، أو صور مرجعية، أو معلمات سينمائية | مطالبات نصية، أو صور، أو مقاطع فيديو |
التحكم الإبداعي | يفهم Veo 2 اللغة الفريدة للتصوير السينمائي، إذ يمكنك تحديد أنواع العدسات، وحركات الكاميرا، وعمق المجال، والأنماط البصرية، مما يتيح إنشاء مقاطع فيديو احترافية بجودة عالية ودقة متناهية. | يعمل نموذج Sora على تحويل المطالبات النصية إلى مقاطع فيديو، ومطابقة الأسلوب باستخدام الصور ومقاطع فيديو أخرى. |
تنسيقات الإخراج | بصيغة MP4. ويتيح إنشاء مقاطع فيديو نسب أبعاد متعددة. | بصيغة MP4. ويتيح إنشاء مقاطع فيديو بتنسيقات رأسية أو أفقية أو مربعة لتناسب أي منصة أو تطبيق. |
العلامات المائية | العلامة المائية SynthID. | علامات مائية مدمجة. |
القيود الحالية | وجود قائمة انتظار لمنح صلاحية الوصول إليه. | الوصول إليه يتطلب الاشتراك في ChatGPT Plus، و ChatGPT Pro. |
ثانيًا؛ التحليل المفصل لمزايا Veo 2، و Sora:
1- جودة الفيديو والدقة:
يُعدّ التباين في قدرات الدقة أحد أبرز جوانب المنافسة، وهنا حققت جوجل قفزة نوعية في دقة الفيديو المولد بالذكاء الاصطناعي، إذ يقدمها نموذجها (Veo 2) مخرجات بدقة قدرها 4K، أي تبلغ 3840 × 2160 بكسلًا، وهو ما يُعادل أربعة أضعاف التي يقدمها منافسه الرئيسي (Sora)، والتي تبلغ 1080 بكسلًا فقط.
قد تبنت شركة (OpenAI) في نموذج (Sora) نهجًا مختلفًا، وهو تقديم توفير جودة موثوقة بدقة تبلغ 1080 بكسلًا، وتُعدّ هذه الدقة معيارًا شائعًا في العديد من التطبيقات، وتوفّر توازنًا جيدًا بين جودة الصورة وحجم الملف وسرعة المعالجة. بالإضافة إلى ذلك، يدعم Sora مجموعة متنوعة من نسب عرض الفيديو، بما يشمل: الشاشة العريضة (16:9)، والشاشة الرأسية (9:16)، والمربعة (1:1).
لذلك في التطبيقات العملية، يُعدّ Sora كافيًا للمحتوى الخاص بمنصات التواصل الاجتماعي، لكن بالنسبة للمحتوى المُعد للعرض عبر شاشات كبيرة أو للاستخدامات المستقبلية، توفر دقة 4K في Veo 2 مزايا واضحة من حيث جودة الصورة والتفاصيل.
الفائز: نموذج (Veo 2) من جوجل.
2- المدة والمعالجة:
يقدم نموذج (Veo 2) مقاطع فيديو أطول تصل مدتها إلى دقيقتين، مما يمثل قفزة نوعية في إنشاء الفيديو بالذكاء الاصطناعي، إذ يفتح الباب أمام إنتاج محتوى سردي أطول وأكثر تعقيدًا.
في حين يقدم نموذج (Sora) مقاطع فيديو أقصر بحد أقصى 20 ثانية، مما يتيح أوقات معالجة أسرع، ويؤدي اختلاف المدة إلى تباين في متطلبات المعالجة، إذ يتطلب نموذج (Veo 2) موارد حسابية أكثر كثافة وهو ما يفسر اعتماد Veo-2 حاليًا على نظام قائمة انتظار للوصول إلى الخدمة.
الفائز: نموذج (Veo 2) من جوجل.
3- التحكم والمزايا الإبداعية:
يوفر نموج (Veo 2) فهمًا محسنًا ودقيقًا للفيزياء في العالم الحقيقي، إذ يراعي قوانين الحركة والتفاعل بين الأجسام بشكل متقن، مما يساهم في إنتاج مقاطع فيديو أكثر واقعية، كما يُولي اهتمامًا خاصًا للفروق الدقيقة في الحركة البشرية وتعبيرات الوجه، إذ يمكنه التقاط التفاصيل الصغيرة في حركات الجسم وتعبيرات الوجه بدقة عالية، مما يعزز الواقعية ويجعل الفيديوهات أكثر جاذبية وتعبيرًا.
وعلاوة على ذلك، يتميز نموذج (Veo 2) بفهمه العميق للغة التصوير السينمائي، إذ يمكن للمستخدم توجيهه باستخدام مصطلحات سينمائية محددة، فعلى سبيل المثال، يمكن للمستخدم تحديد نوع اللقطة (مثل لقطة قريبة، أو لقطة بعيدة، أو لقطة علوية)، وتحديد نوع العدسة المستخدمة (مثل عدسة قدرها 18 مم، أو عدسة قدرها 50 مم)، واقتراح تأثيرات سينمائية محددة (مثل ضبط عمق المجال للتحكم في مدى وضوح الخلفية، أو صياغة أنماط بصرية محددة باستخدام أوامر نصية مفصلة).
ولا يقتصر التخصيص في نموذج (Veo-2) على المُعلمات الأساسية فقط، بل يمتد إلى فهم اللغة السينمائية بعمق شديد، ويعني ذلك أنه يمكن للمستخدم تحديد الحالة المزاجية والشعور الذي يرغب في إيصاله من خلال الفيديو. ويقبل النموذج المطالبات النصية التفصيلية، بالإضافة إلى إمكانية استخدام صور مرجعية لتوجيه عملية توليد الفيديو النهائي ومطابقة الأسلوب البصري.
ويتفوق نموذج (Veo-2) بنحو خاص في تفسير التوجيهات السينمائية المحددة، مثل طلب إنشاء لقطات تتبع (tracking shots)، التي تُتابع حركة شخص أو جسم في المشهد، أو تطبيق تأثيرات الإضاءة (lighting effects) المختلفة.
في حين يتبنى نموذج (Sora) نهجًا أبسط، إذ يركز في قوة توليد الفيديو من النص، مع إمكانية قبول مدخلات من الصور والفيديو لمطابقة الأسلوب البصري للمدخلات.
لذلك يركز نموذج (Sora) في سهولة الاستخدام وسرعة الإنتاج، مع توفير خيارات تحكم أقل تفصيلًا مقارنة بنموذج (Veo 2).
كما يستخدم كلا النموذجين تقنيات العلامات المائية الخاصة بهما لضمان أصالة المحتوى المولد ومنع إساءة استخدامه، إذ يستخدم نموذج (Veo 2) تقنية SynthID، ويستخدم نموذج (Sora) علامات مائية مدمجة في الفيديو نفسه، ويضمن هذا الإجراء حماية حقوق الملكية الفكرية دون التأثير في المرونة الإبداعية للمستخدمين.
ومن ثم، يقدم نموذج (Veo 2) مستوى عالٍ من التحكم الإبداعي والدقة السينمائية، مما يجعله مناسبًا للمبدعين الذين يبحثون عن تحكم كامل في عملية الإنتاج، في حين يركز نموذج (Sora) في سهولة الاستخدام وسرعة الإنتاج، مما يجعله مناسبًا لإنشاء محتوى سريع الانتشار أو تجربة أفكار مختلفة بسرعة، لذلك يُعدّ اختيار النموذج المناسب مرتبطًا باحتياجات المستخدم ومستوى التحكم الذي يرغب فيه.
بشكل عام، يُظهر Veo 2 تفوقًا في الدقة والتحكم الإبداعي، بينما يقدم Sora خيارًا أسرع وأكثر مرونة لإنشاء محتوى قصير. ويشير هذا التنافس إلى مستقبل مُشرق لإنشاء الفيديو بالذكاء الاصطناعي، مع إمكانيات مُتزايدة للمبدعين من جميع المستويات.
الفائز: نموذج (Veo 2) من جوجل.
4- التوفر والوصول:
يتوفر نموذج (Sora) للعامة ولكنه ليس مفتوحًا للجميع بشكل مباشر، إذ يتطلب الوصول إليه الاشتراك في إصدار ChatGPT Plus، أو ChatGPT Pro، وكل اشتراك له مزاياه الخاصة.
إذ يحصل مستخدمو إصدار (ChatGPT Plus) على إمكانية إنشاء ما يصل إلى 50 مقطع فيديو شهريًا بدقة قدرها 480 بكسلًا أو عدد أقل من مقاطع الفيديو بدقة أعلى قدرها 720 بكسلًا.
وسيحصل مستخدمو إصدار (ChatGPT Pro) الجديد – الذي يبلغ سعر الاشتراك به 200 دولار شهريًا – على إمكانية إنشاء ما يصل إلى 500 مقطع فيديو، مع دقة أعلى ومدة أطول.
في حين تتبنى جوجل نهجًا مختلفًا تمامًا في توفير الوصول إلى نموذج (Veo 2)، إذ تعتمد على نموذج اختبار متحكم به بشكل صارم، وهو الانضمام إلى قائمة الانتظار عبر منصة VideoFX، ويُشترط أن يكون عمر المستخدم أكثر من 18 عامًا وأن يكون مقيمًا في الولايات المتحدة ليكون مؤهلًا للانضمام إلى قائمة الانتظار.
ومع ذلك يتاح الوصول إلى Veo 2 مجانًا خلال مرحلة الاختبار الحالية، ولكن يساعد هذا النهج الدقيق جوجل في إدارة تحميل النظام وضمان استقراره، بالإضافة إلى جمع تعليقات محددة من مجموعة مختارة من المستخدمين بهدف تحسين النموذج.
الفائز: نموذج (Sora ) من OpenAI.
5- الفئات المستهدفة من المستخدمين لكل من نموذجي Veo 2، و Sora:
يناسب نموذج (Sora) بشكل مثالي الفئات التالية من المستخدمين:
- صناع المحتوى لمنصات التواصل الاجتماعي: يُعدّ نموذج (Sora) خيارًا ممتازًا لمن يحتاجون إلى إنشاء مقاطع فيديو قصيرة وسريعة وعالية الجودة، لا تتجاوز مدتها 20 ثانية. كما تتوافق دقة 1080 بكسلَا وسرعة العرض التي يقدمها النموذج تمامًا مع متطلبات منصات مثل: تيك توك وإنستاجرام و YouTube Shorts.
- المعلنون الرقميون: تُعدّ جودة الإخراج المتسقة وسرعة التوليد التي يوفرها نموذج (Sora) مثالية لإنشاء محتوى إعلاني سريع، خاصةً عند العمل ضمن مواعيد نهائية ضيقة، ويمكن للمعلنين إنشاء إعلانات فيديو جذابة بسرعة وكفاءة.
- صناع المحتوى المستقلون: يسهل الوصول القائم على الاشتراك في إصدار ChatGPT Plus، أو ChatGPT Pro على المبدعين الفرديين والفرق الصغيرة استخدام نموذج (Sora)، إذ يوفر لهم إخراجًا منتظمًا وموثوقًا بتكلفة مناسبة.
يناسب نموذج (Veo 2) بشكل مثالي الفئات التالية من المستخدمين:
- صناع الأفلام المحترفون: تُعدّ دقة 4K والتحكمات السينمائية المتقدمة التي يقدمها نموذج (Veo 2) أداة قوية لإنشاء محتوى احترافي يتطلب قيم إنتاجية عالية، ويمكن لصناع الأفلام تحقيق جودة بصرية عالية وتحكم إبداعي دقيق في إنتاجهم.
- استوديوهات الإنتاج: تناسب قدرات نموذج (Veo 2) على إنشاء مقاطع فيديو أطول، والنمذجة الفيزيائية المتفوقة الاستوديوهات التي تنتج محتوى سردي أكثر تعقيدًا.
- صناع المحتوى عبر يوتيوب: وفقًا لوثائق جوجل يستخدم المبدعون نموذج (Veo 2) بنجاح لإنشاء محتوى متطور ومقاطع فيديو أطول، مما يمكنهم من إنتاج محتوى ذي جودة عالية يجذب المشاهدين.
ثالثًا؛ مقارنة بين النموذجين والاختيار بينهما:
يخدم النموذجان صناع المحتوى بشكل عام، ولكن الاختيار بينهما يعتمد على الاحتياجات المحددة:
- السرعة والجودة الثابتة: إذا كان التركيز في إنشاء مقاطع فيديو سريعة بجودة ثابتة، فإن نموذج (Sora) هو الخيار الأمثل.
- أقصى قدر من الدقة البصرية والتحكم الإبداعي: إذا كان الهدف هو تحقيق أعلى دقة بصرية ممكنة وتحكم إبداعي دقيق، فإن نموذج (Veo 2) هو الخيار الأفضل.
الخلاصة:
يمثل تطور نموذجي (Veo 2) و(Sora) لحظة مهمة في مجال توليد الفيديو بالذكاء الاصطناعي، إذ تقدم الأساليب التقنية المختلفة التي يعتمدها كل نموذج حلولًا لاحتياجات إبداعية متميزة. فبينما تقدم جوجل من خلال Veo 2 إخراجًا بدقة قدرها 4K ومدة فيديو أطول، تركز شركة (OpenAI) من خلال Sora في الكفاءة والجودة الثابتة، مما يؤكد أنه لا يوجد حل واحد يُناسب جميع الاحتياجات.
وتظهر مقارنة بين النموذجين وجود أدوات لتوليد الفيديو بالذكاء الاصطناعي تستهدف شرائح مختلفة من السوق الإبداعي، ابتداءً من محتوى منصات التواصل الاجتماعي ووصولًا إلى الإنتاجات الاحترافية.
لذلك بدلًا من إعلان فائز واحد، فإن النجاح الحقيقي يكمن في توفر خيارات متنوعة تناسب احتياجات وظروف العمل الإبداعية المختلفة.
نسخ الرابط تم نسخ الرابط
0 تعليق