Midjourney V1: أطلق العنان لقوة إنشاء الفيديو بالذكاء الاصطناعي

يواصل عالم الذكاء الاصطناعي تقدمه بلا هوادة، طمس الخطوط الفاصلة بين الخيال والإبداع الملموس. فبينما أسرت مولدات الصور بالذكاء الاصطناعي الجماهير بقدرتها على استحضار صور مذهلة من مجرد نصوص، هناك جبهة جديدة تتوسع بسرعة: توليد الفيديو بالذكاء الاصطناعي. وفي طليعة هذا التطور المثير تقف Midjourney، وهي منصة اشتهرت منذ فترة طويلة بقدراتها غير المسبوقة في توليف الصور، والتي قدمت الآن نموذج الفيديو V1 الذي طال انتظاره.

هذا التوسع في مجال الفيديو ليس مجرد تحديث تدريجي؛ إنه يمثل خطوة كبيرة نحو رؤية Midjourney الطموحة طويلة الأجل: إنشاء محاكاة عالم ثلاثي الأبعاد في الوقت الفعلي وغامر بالكامل. نموذج V1، على الرغم من كونه إصدارًا مبكرًا، يقدم لمحة مقنعة عن هذا المستقبل، ويقدم توليد فيديو مصقولًا وبديهيًا بشكل مدهش للمستخدمين المتلهفين لاستكشاف ديناميكيات الصور المتحركة التي أنشأها الذكاء الاصطناعي.

قفزة Midjourney الأخيرة في توليد الفيديو

على مدار السنوات الثلاث الماضية، ميزت Midjourney نفسها كرائدة في مجال توليد الصور بالذكاء الاصطناعي، ودفعت باستمرار حدود الممكن في توليف النص إلى الصورة. وقد أدى تفانيها في تحسين الخوارزميات وتجربة المستخدم إلى بناء مجتمع شغوف من الفنانين الرقميين والهواة. يمثل الكشف الأخير عن نموذج الفيديو V1 تطورًا طبيعيًا، حيث يوسع نقاط القوة الأساسية للمنصة – الاتساق الفني والإخراج التفصيلي – إلى البعد الزمني.

يتماشى الإصدار الاستراتيجي لنموذج V1 تمامًا مع الهدف العام لـ Midjourney. من خلال تمكين المستخدمين من إنشاء رسوم متحركة قصيرة وسلسة، تجمع الشركة البيانات والتغذية الراجعة الحاسمة اللازمة للبناء تدريجيًا نحو بيئة محاكاة ثلاثية الأبعاد أكثر تعقيدًا وتفاعلية. يسمح هذا النهج التكراري بالتحسين المستمر، مما يضمن أن النماذج اللاحقة ستتوافق بشكل متزايد مع متطلبات إنشاء عوالم رقمية واقعية وديناميكية.

كيف يعمل نموذج فيديو الذكاء الاصطناعي لـ Midjourney

على عكس بعض مولدات الفيديو الأخرى بالذكاء الاصطناعي التي قد تتطلب برمجة مكثفة أو وسائط إدخال متعددة، يعتمد نموذج فيديو V1 الخاص بـ Midjourney على سير عمل مبسط وبديهي بشكل ملحوظ. هذا الاختيار التصميمي يجعله في متناول كل من فناني الذكاء الاصطناعي المخضرمين والجدد، مما يقلل من منحنى التعلم مع زيادة الإمكانات الإبداعية.

  • البدء بصورة: العنصر الأساسي لفيديو Midjourney هو الصورة. يمكن للمستخدمين البدء بصورة قاموا بإنشائها سابقًا داخل Midjourney نفسها، مستفيدين من جماليتها المميزة، أو تحميل صورة موجودة من مكتبتهم الخاصة. تسمح هذه المرونة للمبدعين بالحفاظ على الاتساق الأسلوبي أو تقديم نقاط بداية بصرية جديدة. ثم يستخدم الذكاء الاصطناعي هذه الصورة الثابتة كقماش، ويضفي عليها الحياة بالحركة.
  • أساس الخمس ثواني: كل مقطع فيديو أولي تم إنشاؤه بواسطة نموذج V1 الخاص بـ Midjourney مدته خمس ثوانٍ بالضبط. هذا الطول المختصر مثالي للمعاينات السريعة ول فهم كيف يفسر الذكاء الاصطناعي الحركة من الصورة الثابتة. كما أنه يعمل كقطعة قابلة للإدارة للتحسين التكراري، مما يسمح للمستخدمين بإجراء تعديلات قبل الالتزام بتسلسلات أطول.
  • توسيع رؤيتك: لإنشاء روايات أطول أو حركات أكثر تعقيدًا، يمكن للمستخدمين تمديد مقاطع الخمس ثوانٍ الأولية هذه. تحدث عملية التمديد بزيادات مدتها أربع ثوانٍ، ويمكن تكرار ذلك حتى أربع مرات لأي مقطع معين. يوفر هذا النهج المعياري درجة من التحكم، مما يمكّن المبدعين من بناء مقاطع الفيديو الخاصة بهم بطريقة منظمة، مما يضمن توافق كل امتداد مع اتجاههم الإبداعي.
  • اقتصاد “الوقت”: تعمل Midjourney بنظام ائتمان، يُشار إليه باسم “الوقت”، والذي يتم استهلاكه لمهام التوليد المختلفة. يترتب على توليد محتوى الفيديو تكلفة محددة من “الوقت”: ثانية واحدة من توليد الفيديو تعادل في التكلفة توليد صورة واحدة. يتيح نموذج التسعير الشفاف هذا للمستخدمين إدارة مواردهم بفعالية. تقدم Midjourney خطط اشتراك مختلفة، تبدأ عادةً بحوالي 10 دولارات شهريًا، مع توفير مستويات أعلى المزيد من “الوقت” والميزات المتقدمة لتلبية مستويات الاستخدام المختلفة.

إتقان إنشاء الفيديو ضمن Midjourney

يعد التفاعل مع إمكانيات الفيديو الخاصة بـ Midjourney امتدادًا لعملية توليد الصور المألوفة، ولكن مع طبقات إضافية من التحكم في الحركة. تعمل واجهة الويب كمركز أساسي لهذا المسعى الإبداعي.

  • توليد الصورة الأولية: الخطوة الأولى الحاسمة هي إنشاء الصورة الأساسية أو تحديدها. ضمن واجهة الويب الخاصة بـ Midjourney، يقوم المستخدمون بإدخال مطالبتهم المطلوبة في مربع النص. يسمح زر المنزلقات على اليمين بالضبط المعلمات مثل نسبة العرض إلى الارتفاع، مما يضمن توافق الإخراج مع العرض البصري المقصود. كلما كانت المطالبة أكثر دقة ووصفًا، كانت الأساسات أفضل للفيديو اللاحق. توفر وثائق Midjourney الشاملة نصائح لا تقدر بثمن لصياغة مطالبات فعالة.
  • دقة المطالبة: عند إنشاء صورة ستصبح فيديو، ضع في اعتبارك العناصر التي ستستفيد من الحركة. فكر في الموضوعات الديناميكية، أو الظواهر الطبيعية، أو العناصر المعمارية التي يمكن تحريكها. على سبيل المثال، بدلاً من مجرد “مدينة مستقبلية”، فكر في “مدينة مستقبلية بمركبات طائرة وإضاءة نيون متلألئة”، حيث توفر هذه التفاصيل تلميحات للذكاء الاصطناعي للتحريك.
  • التنقل في خيارات الرسوم المتحركة: بمجرد إنشاء الصورة الأولية، تقدم Midjourney أربعة خيارات رسوم متحركة متميزة لتحويلها إلى فيديو. هذا هو المكان الذي يبدأ فيه تحكم المستخدم في الحركة حقًا:
    • الحركة التلقائية مقابل اليدوية: يتيح خيار “التلقائي” لـ Midjourney تحديد وتطبيق الحركة الأنسب بذكاء بناءً على محتوى الصورة. هذا ممتاز للحصول على نتائج سريعة أو عندما تكون غير متأكد من الحركة المطلوبة. وعلى العكس من ذلك، يوفر “اليدوي” وكالة إبداعية أكبر، مما يسمح للمستخدمين بوصف الحركة المحددة التي يتخيلونها، مثل “تحريك الكاميرا إلى اليسار” أو “الأشياء تطفو للأعلى”.
    • حركة منخفضة مقابل عالية: يحدد هذا الإعداد كثافة ونطاق الحركة داخل الإطار. تؤدي “الحركة المنخفضة” إلى حركات دقيقة ومحتواة، وتحافظ على استقرار بصري أكبر وتقلل من احتمالية حدوث تشوهات. ومع ذلك، فإن “الحركة العالية” تقدم حركات أوسع وأكثر ديناميكية عبر الإطار بأكمله، والتي يمكن أن تكون مؤثرة بصريًا ولكنها تزيد أيضًا من احتمالية حدوث خلل أو فيزياء غير طبيعية.
  • التحسين التكراري: بعد تحديد نوع الحركة المفضل لديك (وتعديل المطالبة إذا تم اختيار “يدوي”)، تنشئ Midjourney اختلافات الفيديو مدتها خمس ثوانٍ. تقدم المنصة نتائج متعددة، على غرار توليد الصور. الأهم من ذلك، أن نفس خيارات الرسوم المتحركة الأربعة متاحة لتوسيع هذه المقاطع، مما يسمح بما يصل إلى أربعة مقاطع إضافية مدتها أربع ثوانٍ. هذا يعني أنه يمكن للمستخدمين مزج ومطابقة أقسام “التلقائي” و “اليدوي”، و “الحركة المنخفضة” و “الحركة العالية”، وبناء قصة فيديو أكثر تعقيدًا وتخصيصًا بشكل تدريجي.
  • تصدير تحفتك الفنية: بمجرد الرضا عن الفيديو الذي تم إنشاؤه، تتوفر خيارات التنزيل بسهولة فوق المطالبة. يمكن للمستخدمين الاختيار بين ملف “فيديو خام”، مناسب للتعديل الاحترافي الإضافي، أو إصدار “محسّن لوسائل التواصل الاجتماعي”. هذا الأخير مفيد بشكل خاص لأنه يخفف من مشاكل الضغط الشائعة التي تتم مواجهتها عند تحميل مقاطع الفيديو إلى منصات مثل Instagram أو TikTok، مما يحافظ على المزيد من الجودة الأصلية.

تجربة مباشرة: وضع V1 لـ Midjourney في الاختبار

بعد استخدام Midjourney بشكل مكثف لتوليد الصور، كانت توقعاتي لقدراتها في مجال الفيديو عالية، ولكن تم تخفيفها بسبب الطبيعة الناشئة لتكنولوجيا الفيديو بالذكاء الاصطناعي. ومع ذلك، كانت النتائج مثيرة للإعجاب بشكل مدهش لنموذج V1. شرعت في إنشاء مشهدين رسوم متحركة متميزين: منظر مدينة خيال علمي مستقبلي واسع، ومنظر طبيعي طبيعي هادئ.

بالنسبة لمنظر المدينة للخيال العلمي، طلبت ناطحات سحاب شاهقة مع أنظمة نقل مدمجة وإضاءة جوية. أظهر مقطع الخمس ثوانٍ الأولي، والتوسعات اللاحقة، اتساقًا ملحوظًا. عبرت المركبات الطائرة الأخاديد الحضرية، وامتلأت أضواء النيون بإيقاع معقول. وبالمثل، حافظ الرسوم المتحركة للمنظر الطبيعي، الذي يضم تلالًا متدحرجة، ونهرًا متعرجًا، وسماء ديناميكية، على تدفق منطقي، مع التواء النهر وتحرك الغيوم بشكل طبيعي.

بينما كان الإخراج العام متسقًا والتزم إلى حد كبير بتعليمات المطالبة، كانت “غرائب” الفيديو الناتج عن الذكاء الاصطناعي لا تزال موجودة بين الحين والآخر. ظهرت لحظات من “الفيزياء الغريبة”، حيث قد يتشوه الكائن قليلاً أو يتحرك بطريقة غير معتادة، خاصة في مقاطع “الحركة العالية”. على الرغم من هذه العيوب الطفيفة، فإن صقل وقدرة نموذج V1 في هذه المرحلة المبكرة لا يمكن إنكارهما. كانت الانتقالات بين مقاطع الأربع ثوانٍ سلسة بشكل عام، مما يعزز الشعور بالاستمرارية. ومع ذلك، كان القيد الملحوظ مع تمدد الفيديو هو انتشار تدريجي للتفاصيل والثراء، مما يعني أن الأجزاء الأخيرة من المقطع كانت تفتقر أحيانًا إلى وضوح الرسوم المتحركة الخمس ثوانٍ الأولية المشتقة مباشرة من الصورة عالية الدقة.

مقارنة Midjourney مع منافسيها الرئيسيين: Sora و Google Veo

لتقدير مكانة Midjourney حقًا، من الضروري مقارنتها باللاعبين البارزين الآخرين في مجال الفيديو بالذكاء الاصطناعي. يعد Sora من OpenAI و Veo من Google (يمكن الوصول إليه عبر تطبيق Flow عبر الإنترنت) منافسين قويين، ولكل منهما نقاط قوة ونهج فريدة.

OpenAI Sora: المنافس الطموح

يمثل Sora من OpenAI، الذي غالبًا ما يتم دمجه مع اشتراكات ChatGPT (يكلف عادةً 20 دولارًا أو أكثر شهريًا)، نموذجًا قويًا من النص إلى الفيديو. مثل Midjourney، يوفر Sora مرونة البدء بفيديو من صورة تم إنشاؤها بواسطة الذكاء الاصطناعي أو موجودة، أو مباشرة من مطالبة نصية جديدة. أسفرت محاولاتي للبناء على نفس صور مدينة الخيال العلمي المستقبلية والمناظر الطبيعية المتحركة التي استخدمتها في Midjourney عن نتائج مختلطة مع Sora.

من ناحية، أنتج Sora غالبًا مشاهد شعرت بأنها أكثر ديناميكية و”جاذبية” بطبيعتها، مع حركات كاميرا واسعة وتفاعلات معقدة. ومع ذلك، غالبًا ما جاءت هذه الديناميكية على حساب الاتساق والواقعية. لاحظت المزيد من “الغرائب”، مثل حركات الشخصيات غير الطبيعية، وظهور أو اختفاء الأشياء بشكل مفاجئ، وخاصة الخلفيات المعيبة. على سبيل المثال، عانت الرسوم المتحركة لمدينة الخيال العلمي في Sora، على الرغم من كونها رائعة بصريًا، من هياكل وهمية ومسارات مركبات غير منتظمة. أصبح المنظر الطبيعي أكثر غرابة، مع تضاريس مشوهة وتكوينات سحابية غريبة. في حين أن Sora يمكنه إنشاء مقاطع فيديو أطول، تصل إلى 20 ثانية، إلا أنه يوفر تحكمًا أقل بكثير في تقدم المشهد مقارنة بـ Midjourney. يقوم المستخدمون بشكل أساسي بإدخال مطالبة ويتلقون الفيديو الذي تم إنشاؤه، مما يجعل التحسين التكراري والتعديلات الدقيقة أكثر صعوبة. بالنسبة للمشاريع العادية التي تتطلب إخراجًا واقعيًا ومنضبطًا، غالبًا ما تبدو Midjourney الأداة الأكثر سهولة وموثوقية.

Google Veo (عبر Flow): أداة الدقة

يبرز Veo 2 من Google، خاصة عند الوصول إليه عبر تطبيق Flow عبر الإنترنت، لتركيزه على الحفاظ على الاتساق البصري والتفاصيل عبر المشاهد الموسعة. على عكس تكامله داخل تطبيق Gemini، يسمح Flow للمستخدمين بشكل خاص بتأسيس مقاطع الفيديو على الصور ثم تمديد هذه المشاهد باستمرار، على غرار Midjourney. عند اختبار نفس مطالبات مدينة الخيال العلمي والمناظر الطبيعية المتحركة، أنتج Veo 2، عبر Flow، نتائج تقترب على الأرجح من رؤيتي المطلوبة، خاصة فيما يتعلق بسلوك الكائنات واتساق المشهد.

على سبيل المثال، نزلت السيارة الطائرة في الرسوم المتحركة لمدينة التخطيط بمسار معقول، وتم اتباع تعليمات المطالبة بدقة. كانت الرسوم المتحركة التي تصور الطيران عبر منظر طبيعي كرتوني أيضًا من بين الأفضل في المجموعة من حيث السيولة والالتزام بالأسلوب الفني. ومع ذلك، حتى مع Veo 2، كان هناك تدهور طفيف في الثراء والتفاصيل من الصورة الأصلية ملحوظًا مع تقدم الفيديو، على غرار سلوك Midjourney، على الرغم من أنه ربما يكون أقل وضوحًا. غالبًا ما يتم وضع أدوات Google لطموحات “أكبر” في صناعة الأفلام، وهو ما ينعكس في تسعيرها: توليد الفيديو والوصول إلى Flow يكلفان عادة 20 دولارًا أو أكثر شهريًا. علاوة على ذلك، فإن خطة Google AI Ultra، بسعر 250 دولارًا، توفر وصولاً موسعًا إلى نموذج Veo 3 الأكثر تقدمًا، والذي يتضمن بشكل ملحوظ توليد الصوت، على الرغم من أن Veo 3 يفتقر حاليًا إلى القدرة على بدء مقاطع الفيديو من صورة ثابتة.

تقييم جنبًا إلى جنب

يكشف هذا التحليل المقارن، على الرغم من أنه يعتمد على عينة محدودة، عن اختلافات واضحة. تتفوق Midjourney في توفير سير عمل بديهي ومباشر يبدأ من أساس صورة قوي ويسمح بتوسعات محكمة وتكرارية. تركيزها على الإخراج المصقول، حتى في نموذج V1، يجعلها منافسًا قويًا للمبدعين الذين يعطون الأولوية للاتساق البصري وسهولة الاستخدام.

غالبًا ما يقدم Google Veo 2، خاصة من خلال Flow، جودة شاملة فائقة، لا سيما في الحفاظ على الاتساق عبر المقاطع الأطول وتفسير المطالبات المعقدة بدقة. يبدو أنه موجه للمستخدمين الذين يحتاجون إلى تحكم أكثر تطوراً ومستعدون للاستثمار أكثر للحصول على دقة أعلى. يظل Sora، على الرغم من إظهاره لإمكانات رائعة للمشاهد الجذابة والمبتكرة، فوضويًا وغير متوقع إلى حد ما في حالته الحالية. غالبًا ما يتطلب تحقيق نتائج مقبولة مع Sora وقتًا كبيرًا ومحاولات متكررة لإنشاء النتيجة المرجوة، مما يجعله أقل ملاءمة للمحتوى الدقيق والجاهز للإنتاج في الوقت الحالي.

المشهد المتطور لتوليد الفيديو بالذكاء الاصطناعي

تشير التطورات السريعة في توليد الفيديو بالذكاء الاصطناعي، والتي تتجسد في Midjourney و Sora و Google Veo، إلى حقبة تحويلية لإنشاء المحتوى. تعمل هذه الأدوات على إضفاء الطابع الديمقراطي على صناعة الأفلام، مما يسمح للأفراد والفرق الصغيرة بإنتاج محتوى رسوم متحركة عالي الجودة دون الحاجة إلى مهارات رسوم متحركة تقليدية واسعة النطاق أو برامج باهظة الثمن. من المواد التسويقية ومحتوى وسائل التواصل الاجتماعي إلى الأفلام القصيرة السردية والفن المفاهيمي، فإن التطبيقات واسعة ومتنامية.

يعد هدف Midjourney المعلن عن محاكاة عالم ثلاثي الأبعاد في الوقت الفعلي طموحًا بشكل خاص ويحمل آثارًا عميقة. يمكن لمثل هذه الأداة أن تحدث ثورة في الواقع الافتراضي، وتطوير الألعاب، والتصور المعماري، وحتى المحاكاة العلمية، مما يسمح للمستخدمين بالتفاعل مع البيئات التي تم إنشاؤها ديناميكيًا واستكشافها. نموذج الفيديو V1 الحالي هو مجرد خطوة أولى، حيث يوفر التكنولوجيا الأساسية والتغذية الراجعة للمستخدم الضرورية للبناء نحو هذه الرؤية الواسعة. مع استمرار هذه النماذج بالذكاء الاصطناعي في التعلم والتطور، يمكننا توقع المزيد من الواقعية، وتحكم محسّن، ودمج عناصر أكثر تعقيدًا مثل الرسوم المتحركة للشخصيات والتعبير العاطفي الدقيق.

أفكار نهائية حول إمكانيات الفيديو الخاصة بـ Midjourney

تُعدّ خطوة Midjourney في توليد الفيديو بالذكاء الاصطناعي باستخدام نموذج V1 نجاحًا لا يمكن إنكاره. فهو يقدم نتائج رائعة، تتميز بسير عمل سلس وواجهة بديهية تبني على إرثها القوي في توليد الصور. في حين أنها تواجه منافسة قوية من عمالقة مثل Google Veo (التي تحتفظ حاليًا بالأفضلية في الاتساق العام) و Sora الطموح، وإن كان فوضويًا في بعض الأحيان، فإن Midjourney تنحت مكانتها من خلال توفير مسار سهل الوصول وجذاب بصريًا للحركة التي تم إنشاؤها بواسطة الذكاء الاصطناعي. لأي شخص يتطلع إلى تجربة الرسوم المتحركة بالذكاء الاصطناعي، أو إضفاء الحياة بسرعة على الصور الثابتة بحركة جذابة، تقدم Midjourney حلاً مقنعًا وقادرًا بشكل متزايد وهو أفضل مما كان متوقعًا حقًا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *