"إذا تم إصدار GPT-5، فإن OpenAI لا يزال متقدمًا بفارق كبير. وإذا كان بحث AI أو مساعد صوتي، فهذا يعني أن OpenAI قد رفض."
< p style="text-align: left;">أخبر أحد ممارسي نماذج الذكاء الاصطناعي الكبيرة Huxiu أن توقعات الصناعة لـ OpenAI مرتفعة للغاية، ما لم يكن ابتكارًا مدمرًا مثل GPT-5، سيكون من الصعب إرضاء شهية الجمهور. ".على الرغم من أن Sam Altman قد توقع بالفعل أن GPT-5 (أو GPT-4.5) لن يتم إصداره قبل البث المباشر عبر الإنترنت لـ OpenAI، إلا أن توقعات العالم الخارجي لـ OpenAI قد انخفضت منذ فترة طويلة لم يعد بإمكان Jiu Niu سحبها بعد الآن.
في الصباح الباكر من يوم 14 مايو بتوقيت بكين، أعلنت شركة OpenAI عن أحدث إصدار من GPT-4o، وهو اختصار لـ Omnimodel (النموذج القاهر). أظهر العرض المباشر الذي استمر أكثر من 20 دقيقة تجربة تفاعلية للذكاء الاصطناعي تجاوزت بكثير جميع المساعدين الصوتيين الحاليين، وتزامنت بشكل أساسي مع الأخبار التي كشفت عنها وسائل الإعلام الأجنبية سابقًا.
على الرغم من أنه لا يزال من الممكن تسمية التأثير التجريبي لـ GPT-4o بأنه "متفجر"،إلا أن المطلعين على الصناعة يعتقدون بشكل عام أنه من الصعب مطابقة الأداء في مقطع Altman الدعائي كلمة "السحر". يعتقد الكثير من الناس أن هذه المنتجات الوظيفية "تنحرف عن مهمة OpenAI".
يبدو أن فريق العلاقات العامة في OpenAI توقع هذا الاتجاه للرأي العام. أوضح ألتمان ذلك في المؤتمر الصحفي وفي منشور مدونة بعد المؤتمر:
"الجزء الرئيسي من مهمتنا هو جعل أدوات الذكاء الاصطناعي القوية جدًا مجانية ( أو بسعر رائع). أنا فخور جدًا بأننا نقدم أفضل الموديلات في العالم في ChatGPT مجانًا، بدون إعلانات أو أي شيء من هذا القبيل كانت الفكرة أننا سنصنع ذكاءً اصطناعيًا ونستخدمه لخلق كل أنواع الفوائد للعالم، بدلًا من ذلك، يبدو الآن أننا سنصنع ذكاءً اصطناعيًا ومن ثم سيستخدمه الآخرون لإنشاء كل أنواع الأشياء المذهلة الأشياء التي تفيدنا جميعًا"
"إذا كان علينا الانتظار 5 ثواني، فسيستغرق الأمر بضع دقائق للحصول على "كل" رد، و تنهار تجربة المستخدم، حتى لو كان الصوت المركب نفسه يبدو واقعيًا، فإنه يكسر الانغماس ويجعله يبدو بلا حياة."
عشية في مؤتمر OpenAI، توقع جيم فان، رئيس الذكاء الاصطناعي المتجسد في Nvidia، المساعد الصوتي الذي ستطلقه OpenAI على X واقترح: المراحل:
1. التعرف على الكلام أو "ASR": الصوت->النص 1، مثل Whisper;
2. خطط لما ستقوله بعد ذلك LLM: text1 -> text2;
3. تحويل النص إلى كلام أو " TTS": text2 -> الصوت، مثل ElevenLabs أو VALL-E.
يمكن أن يؤدي المرور عبر 3 مراحل إلى حدوث تأخيرات كبيرة.
لقد نجح GPT-4o تقريبًا في حل مشكلة التأخير من حيث سرعة الاستجابة. كان الحد الأدنى لوقت استجابة GPT-4o لإدخال الصوت 232 مللي ثانية، وكان متوسط وقت الاستجابة 320 مللي ثانية، تقريبًا مثل الإنسان. يبلغ متوسط زمن الوصول لوظيفة المحادثة الصوتية ChatGPT بدون GPT-4o 2.8 ثانية (GPT-3.5) و5.4 ثانية (GPT-4).
لا يعمل GPT-4o على تحسين التجربة بشكل كبير من خلال تقليل زمن الوصول فحسب، بل يقوم أيضًا بإجراء العديد من الترقيات بناءً على GPT-4، بما في ذلك:
إمكانات ممتازة للتفاعل متعدد الوسائط، بما في ذلك الصوت والفيديو و مشاركة الشاشة.
يمكنه التعرف على التعبيرات البشرية والنصوص والصيغ الرياضية وفهمها في الوقت الفعلي.
الصوت التفاعلي غني بالمشاعر ويمكنه تغيير نغمة الصوت وأسلوبه وتقليده وحتى "ارتجال" الغناء .
زمن وصول منخفض للغاية، ويمكن مقاطعة الذكاء الاصطناعي في الوقت الفعلي أثناء المحادثة لإضافة معلومات أو بدء موضوعات جديدة .
يمكن لجميع مستخدمي ChatGPT استخدامه مجانًا (مع حد للاستخدام).
2x سرعة GPT-4 Turbo، وتكلفة أقل بنسبة 50% لواجهة برمجة التطبيقات (API)، وحد أقصى للمعدل 5x.
"الاختراقات في هذه القيود هي الابتكار."
يعتقد بعض خبراء الصناعة أنإمكانيات GPT-4o متعددة الوسائط "تبدو" جيدة فقط، لم تثبت OpenAI وجود وظيفة "اختراق" حقيقية للوسائط البصرية المتعددة.
نحن هنا نتبع عادات صناعة النماذج الكبيرة ونقارن كلود 3 من Anthropic، المصنع المجاور.
تذكر الوثائق الفنية لكلود 3 أنه "على الرغم من أن قدرات فهم الصور لدى كلود متطورة، إلا أن هناك بعض القيود التي يجب الإشارة إليها."
بما في ذلك:
التعرف على الأشخاص: لا يمكن استخدام Claude لتحديد (أي تسمية) الأشخاص في الصور وسوف يرفض القيام بذلك.
الدقة: قد يواجه كلود هلوسة أو أخطاء عند تفسير صور منخفضة الجودة أو تم تدويرها أو صغيرة جدًا يقل حجمها عن 200 بكسل.
التفكير المكاني: يتمتع كلود بقدرات تفكير مكانية محدودة. يمكن أن يواجه صعوبة في المهام التي تتطلب تحديد موضع أو تخطيط دقيق، مثل قراءة وجه الساعة التناظرية أو وصف الموضع الدقيق لقطعة الشطرنج.
العد: يستطيع كلود إعطاء عدد تقريبي للكائنات في الصورة، لكنه قد لا يكون دائمًا دقيقًا ودقيقًا، خاصة بالنسبة إلى الكثير من الأشياء الصغيرة.
الصورة المولدة بواسطة الذكاء الاصطناعي: لا يعرف كلود ما إذا كانت الصورة قد تم إنشاؤها بواسطة الذكاء الاصطناعي، وإذا تم سؤاله فقد لا يكون كذلك صحيح. لا تعتمد عليه لكشف الصور المزيفة أو الاصطناعية.
محتوى غير لائق: لن يقوم Claude بمعالجة الصور غير اللائقة أو الصريحة التي تنتهك سياسة الاستخدام المقبول لدينا.
تطبيقات الرعاية الصحية: بينما يستطيع كلود تحليل الصور الطبية العامة، إلا أنه ليس مصممًا لتفسير عمليات الفحص التشخيصية المعقدة مثل التصوير المقطعي أو التصوير بالرنين المغناطيسي. . لا ينبغي اعتبار مخرجات كلود بديلاً عن الاستشارة الطبية أو التشخيص الطبي.
منشور على موقع GPT-4o في هذه الحالة، هناك بعض القدرات المتعلقة بـ "الاستدلال المكاني"، لكنها لا تزال بالكاد تعتبر اختراقات.
بالإضافة إلى ذلك، من السهل أن نرى من مخرجات GPT-4o في العرض المباشر في المؤتمر الصحفي أن قدرات نموذجه لا تختلف كثيرًا عن GPT -4.
معيار GPT-4o
على الرغم من أن النموذج يمكنه إضافة نغمة إلى المحادثة وحتى الغناء المرتجل، إلا أن محتوى المحادثة لا يزال يفتقر إلى التفاصيل والمحتوى مثل GPT-4 . إِبداع.
بالإضافة إلى ذلك، بعد المؤتمر الصحفيأصدر موقع OpenAI الرسمي أيضًا سلسلة من استكشافات حالة تطبيق GPT-4o. بما في ذلك: تحويل الصور إلى سجلات الاجتماعات، وتوليف الصور، وإنشاء الكتابة اليدوية والمسودات، وإنشاء الخطوط الفنية، وما إلى ذلك.
من بين هذه الإمكانات، الصور ذات النمط الهزلي، وسجلات الاجتماعات، وما إلى ذلك، كلها صور فنسنتية ذات مظهر عادي أو نماذج كبيرة تعمل بالذكاء الاصطناعي.
"إذا قمت بتسجيل 5 حسابات ChatGPT مجانية، ألا أحتاج إلى إنفاق 20 دولارًا شهريًا للاشتراك في ChatGPT Plus؟" /strong>
سياسة استخدام GPT-4o التي أعلنتها OpenAI هي أن حد حركة المرور لمستخدمي ChatGPT Plus أعلى بخمس مرات من المستخدمين العاديين.
GPT-4o مجاني للجميع، ويبدو أن التحدي الأول يتمثل في نموذج الأعمال الخاص بـ OpenAI.
تظهر البيانات الصادرة عن منصة تحليل السوق التابعة لجهة خارجية Sensor Tower أنه في الشهر الماضي، تم تنزيل ChatGPT 7 ملايين مرة في متجر التطبيقات العالمي، مع وبلغت إيرادات الاشتراكات 1,200 مليون دولار أمريكي، وبلغت التنزيلات في سوق Google Play العالمية 90 مليون دولار أمريكي، وبلغت إيرادات الاشتراكات 3 ملايين دولار أمريكي.
حاليًا، يبلغ سعر الاشتراك في ChatGPT Plus 19.99 دولارًا أمريكيًا في كلا متجري التطبيقات. ومن خلال استقراء بيانات الاشتراك، بلغ عدد المشتركين في ChatGPT Plus الذين دفعوا من خلال متجر التطبيقات في الشهر الماضي 750 ألفًا. على الرغم من أن ChatGPT Plus لا يزال لديه عدد كبير من المستخدمين الذين يدفعون بشكل مباشر، فإن الإيرادات السنوية من الهاتف المحمول أقل من 200 مليون دولار أمريكي، وحتى لو تضاعفت عدة مرات، سيكون من الصعب دعم تقييم OpenAI ما يقرب من 100 مليار.
من وجهة النظر هذه، لا تحتاج OpenAI في الواقع إلى التفكير كثيرًا في إعادة شحن المستخدم الفردي.
وأكثر من ذلك، يركز GPT-4o على تجربة جيدة إذا كنت تتحدث مع الذكاء الاصطناعي ثم انقطع الاتصال، وقد فعلت ذلك لتغيير حسابك والدردشة مرة أخرى، فهل ستقوم بإعادة الشحن بغضب؟
"ألمح ChatGPT الأصلي إلى إمكانيات واجهة اللغة؛ ويبدو أن هذا الشيء الجديد مختلف تمامًا، فهو سريع وذكي وممتع وطبيعي ومفيد ”
تذكر أحدث مدونة لـ Sam Altman "إمكانيات واجهات اللغة"، وهذا هو الحال أيضًا مع GPT-4o قد يفعل بعد ذلك: تحدي جميع واجهات المستخدم الرسومية (GUIs) وأولئك الذين يرغبون في العمل على LUIs (واجهات الصوت).
بالإضافة إلى الأخبار الأخيرة التي كشفت عنها وسائل الإعلام الأجنبية حول التعاون بين OpenAI وApple، يمكن التكهن بأن GPT-4o قد يكون مطلوبًا قريبًا لجميع أجهزة الكمبيوتر الشخصية ذات الذكاء الاصطناعي وشركات تصنيع الهواتف المحمولة العاملة بالذكاء الاصطناعي "لرمي غصن زيتون" أو "لقلب الطاولة".
بغض النظر عن نوع المساعد الصوتي أو نموذج AI الكبير، فإن القيمة الأساسية للهواتف المحمولة AIPC وAI هي تحسين التجربة، وGPT- 4o تم تحسين التجربة إلى أقصى الحدود في وقت واحد.
من المرجح أن يشارك GPT-4o في جميع التطبيقات المعروفة، حتى في صناعة SaaS. في العام الماضي أو نحو ذلك، سيواجه جميع عملاء الذكاء الاصطناعي الذين تم تطويرهم ويجري تطويرهم في السوق تهديدات.
قال مدير منتج تطبيق تجميع الموارد ذات مرة لـ Huxiu، "عملية التشغيل الخاصة بي هي جوهر المنتج. إذا تم تحسين عملية التشغيل بواسطة ChatGPT، فهذا يعني تطبيقي لا قيمة له."
تخيل إذا كانت واجهة المستخدم لأحد التطبيقات لطلب الطعام تصبح "اطلبني"، فإن الأمر نفسه بالنسبة للمستخدمين سواء يفتحون Meituan أو Ele.me.
لا يمكن أن تكون الخطوة التالية بالنسبة للمصنعين سوى ضغط سلسلة التوريد وهوامش الربح البيئي، أو حتى الانخراط في حروب أسعار شرسة.
انطلاقًا من الوضع الحالي، قد يستغرق الأمر بعض الوقت حتى تتمكن الشركات المصنعة الأخرى من التغلب على OpenAI من حيث إمكانيات النموذج.
إذا كان المنتج يريد قياس الأداء مقابل OpenAI، فقد يكون ذلك فقط من خلال إنشاء نموذج أرخص.
"لقد كنت مشغولًا جدًا مؤخرًا لدرجة أنني لم أهتم بهم."
أخبر أحد مؤسسي نموذج الذكاء الاصطناعي الصناعي الكبير Huxiu أنه كان مشغولًا بالتواصل مؤخرًا حول التعاون الاستراتيجي وإصدارات المنتجات وتبادل العملاء وتبادل رأس المال، وليس لديه وقت للاهتمام بإصدارات مثل OpenAI.
قبل إصدار OpenAI، سأل Huxiu أيضًا عددًا من ممارسي الذكاء الاصطناعي المحليين من مختلف الصناعات، وكان لديهم جميعًا نفس التوقعات والآراء حول الإصدار الأخير من OpenAI :أتطلع لذلك بشدة، لكن لا علاقة له بي.
قال أحد الممارسين إنه انطلاقًا من التقدم المحلي الحالي، من غير الواقعي اللحاق بـ OpenAI على المدى القصير. لذا، إذا كنت مهتمًا بما أصدرته OpenAI، فإن أقصى ما يمكنك فعله هو الاطلاع على أحدث التوجيهات التقنية.
في الوقت الحاضر، تولي الشركات المحلية عمومًا مزيدًا من الاهتمام للنماذج الهندسية والعمودية في البحث وتطوير نماذج الذكاء الاصطناعي الكبيرة، والتي تكون أكثر واقعية وسهلة التنفيذ.
فيما يتعلق بالهندسة، فإن Deepseek، الذي أصبح شائعًا مؤخرًا، يشعل حرب أسعار الرمز المميز في صناعة النماذج الكبيرة المحلية. فيما يتعلق بالنماذج الرأسية، أخبر العديد من المطلعين على الصناعة Huxiu أن تطوير النماذج الصغيرة والنماذج الرأسية لن يتعرض للتهديد من قبل OpenAI على المدى القصير.
"في بعض الأحيان لا يستحق الاتجاه الفني لـ OpenAI التعلم منه." أخبر أحد خبراء النماذج Huxiu أن Sora هو مثال جيد على ذلك في فبراير 2024، أصدرت OpenAI نموذج الفيديو Sora، والذي حقق إخراج فيديو ثابتًا لمدة 60 ثانية. على الرغم من أنه يبدو أنه يعمل بشكل جيد جدًا، إلا أنه لا توجد ممارسة متابعة تقريبًا وسرعة التنفيذ بطيئة جدًا.
قبل Sora، حققت العديد من الشركات والمؤسسات المحلية العاملة في مجال فيديو Wensheng إنتاج فيديو مستقر مدته 15 ثانية، بعد ظهور Sora، قامت بعض شركات البحث والتطوير، لقد تعطلت كل من عمليات التمويل وإيقاعات الإنتاج،وحتى تطوير صناعة فيديو فنسنت بأكملها تطور إلى "قفزة كبيرة للأمام في مجال التكنولوجيا".
لحسن الحظ، هذه المرة يختلف GPT-4o كثيرًا عن Sora. وقال موري موراتي، CTO في OpenAI: "على مدى الأسابيع القليلة المقبلة، سنواصل نشرنا المتكرر لتقديم جميع الميزات إليك.
بعد وقت قصير من المؤتمر الصحفي، أصبح GPT-4o متاحًا للتجربة عبر الإنترنت.