- حصلت BI على إمكانية الوصول المبكر إلى Manus ، التي تدعي أنها أول عميل لحكم الذكاء الاصطناعي في العالم.
- قامت بتنظيم المهام بشكل جيد ولكن تعثر في التنفيذ – البيانات الهلوسة وإنشاء تصميمات عائلة.
- إليك ما فعلته في التقاط الرأي العام على دوج وبناء بدء تشغيل من الصفر.
لقد اختبرنا مانوس ، وكيل الذكاء الاصطناعي الجديد من الصين ، ويعد بأن يكون مستقبل مساعدي الذكاء الاصطناعى ، ويتطلب الحد الأدنى من الرقابة البشرية.
منذ إطلاقه الأسبوع الماضي ، تم الإشادة به بالفعل من قبل خبراء ومراقبي الصناعة ، حيث وصفها البعض بأنها “The Second Deepseek”.
في الوقت الحالي ، مانوس هو دعوة فقط ، لكنني كنت من بين عدد صغير من المستخدمين المدرجين في الانتظار الممنوح.
أردت أن أرى ما إذا كان يمكن أن ترقى إلى مستوى وعدها كعامل عام لحكم الذكاء الاصطناعي.
إليك ما طلبت منه القيام به – وكيف تعاملت مع تلك المهام.
المهمة 1: تحليل مشاعر دوج في الأخبار ووسائل التواصل الاجتماعي
يدعي مانوس أنه قادر على كشط الإنترنت ، وتحليل الخطاب العام ، وتحولات المشاعر في الوقت الحقيقي على وسائل التواصل الاجتماعي ومواقع الأخبار.
لقد طلبت منه تحليل كيف يتفاعل الجمهور مع تخفيضات القوى العاملة الفيدرالية في إطار وزارة الكفاءة الحكومية ، أو دوج.
من ردها الأولي على مطالبي ، بدت الأمور واعدة.
لكن مانوس لم يحصل حقًا على المذكرة.
أولاً ، لم يتمكن من العثور على أي ردود فعل على وسائل التواصل الاجتماعي – على الرغم من أن تخفيضات القوى العاملة الفيدرالية كانت تصدر عناوين الصحف لعدة أسابيع.
بدلاً من التوقف والسؤال عما إذا كنت أرغب في مقالات إخبارية حقيقية ، بدلاً من ذلك ، قامت بمحاكاة الخطاب العام حول دوج.
ثم ، ازداد الأمر سوءًا.
خلال الدقائق الخمس التالية ، شاهدت أنها تولد ردود فعل وهمية على وسائل التواصل الاجتماعي وحسابات وتغريدات مكوّنة تمامًا. حتى أنه أظهر مواقع الويب الحقيقية تشكل منشورات لا يبدو أنها حقيقية.
في أي وقت من الأوقات لم تسأل عما إذا كنت أرغب في ذلك. لم أكن.
استمر هذا لمدة 20 دقيقة. كان هناك خيار للتدخل والسيطرة ، ولكن يبدو أنه على خلاف مع النقطة الكاملة من هذا العامل المستقل تمامًا قادرًا على العمل بشكل مستقل.
قام التقرير النهائي بسحب بيانات مزيفة من مواقع الويب الحقيقية ، بما في ذلك دافعي الضرائب من أجل الحس السليم ، الموصوفة بأنها “منظمة مراقبة محافظة من الناحية المالية مع أعلى تأثير إجمالي في التغطية الإخبارية”.
لكن ادعاء مانوس بأن هذه كانت الأصوات الأكثر نفوذا على دوج كانت مشكوك فيها في أحسن الأحوال. من بين مصادرها العليا التي تم إدراجها في المدونة المتوسطة تسمى Progressive Times ، والتي لم تنشر أي شيء منذ عام 2017-قبل فترة طويلة من وجود Doge.
بالنسبة للاتجاهات الاجتماعية ، يبدو أن مانوس قد وفر مستخدمي X و Reddit وأدرجهم على أنهم يقودون خطابًا عبر الإنترنت حول Doge.
كانت ميزة استرداد الواحدة هي تصور مجموعة بياناتها – مزيفة تمامًا -. كانت الطريقة التي تصنف بها المشاعر ، وقامت بالتنبؤات ، والانهيارات البصرية المولدة مثيرة للإعجاب.
كان يمكن أن يكون مفيدًا لو كان يعمل مع بيانات حقيقية. ولكن نظرًا لأنه لم يكن كذلك ، فقد شعرت وكأنها طريقة مصقولة للغاية لتقديم المعلومات ملفقة تمامًا.
للوهلة الأولى ، بدا التقرير شرعيًا ، مع قائمة مرجعية مقنعة. ولكن فقط في النهاية-المدفون في الطباعة الدقيقة-كان إخلاء المسؤولية يقول إن التحليل المكون من 10 صفحات بأكمله كان من بيانات اصطناعية.
إذا احتاج شخص ما إلى تحليل حقيقي لم يكن يراقب تصرفات الوكيل بنشاط ، فسوف ينتهي بهم المطاف بنتائج عديمة الفائدة.
لقد تركني بثقة قليلة جدًا في المهمة التالية.
المهمة 2: إطلاق عمل تجاري لحل ارتفاع سعر البيض
بالنسبة لهذا الاختبار ، طلبت من Manus تطوير شركة ناشئة لمعالجة ارتفاع أسعار البيض. من المسلم به أن طلبي كان طموحًا: أردت خطة عمل ، وخلفية مؤسس ، وموقع ويب مصمم بالكامل ، وإرشادات للعلامة التجارية ، واستراتيجية التسويق ، وحتى شعار وبطاقة عمل.
منذ اللحظة التي حقق فيها العودة ، كان مانوس متحمسًا ، وريادة الأعمال ، ونظمه – على النقيض الصارخ مع الاختبار السابق حيث شكل البيانات ويحتاج إلى تصحيح مستمر.
هذه المرة ، بدأ بداية سلسة. بدت العملية منظمة ومنهجية.
كان مانوس رائعا في تحديد استراتيجيات متعددة وإدارة التوقعات طوال الوقت.
كانت الأمور تبحث!
في منتصف الطريق ، عرضت أن تظهر لي تقدمًا ، وكشف عن أول أصول تجارية لعملي الجديد: Eggonomy ™ ، “منصة توفير البيض المباشرة للمستهلك”.
شعر تصميم طبق Petri Disk الغريب للشعار بأنه تم رفعه من صفحات كتاب علوم مدرسية. كما وفرت بطاقة عمل أساسية بشعار “بيض دون صدمة السعر”.
لكنني صمدت الأمل. بالنظر إلى مقياس المهمة ، كنت أتوقع أن يستغرق الأمر وقتًا أطول ، ولم يكن يبدو أنه يضرب أي حواجز تقنية.
كانت العملية واضحة وسريعة وسهلة المتابعة – حتى لم تكن كذلك.
بعد نصف ساعة ، أخبرني مانوس أن المنتج النهائي ، Eggonomy ™ ، كان جاهزًا.
لقد فوجئت بإلقاء نظرة أولى على الموقع الإلكتروني ، الذي بدا نظيفًا ومتعلقًا بالبيض.
ولكن كان هناك شيء ما.
تميز قسم المدونة بمشاركات عشوائية وغير ذات صلة لا علاقة لها بالبيض.
لم يستغرق الأمر وقتًا طويلاً لمعرفة السبب. علم البيض موجود بالفعل. لم يتم إنشاء موقع الويب من نقطة الصفر – وتم تسجيله في عام 2016 ، استنادًا إلى خدمات فحص المجال.
على الأقل يبدو أن استراتيجية العمل مدعومة بالبيانات الحقيقية وأبحاث السوق.
كان مانوس رائعا في العصف الذهني لأسماء العلامات التجارية ، وهي تنظيم خطط العمل ، وتحليل المنافسين الرئيسيين – لكن تنفيذها كان في طريقه.
والأسوأ من ذلك أنه لم يكن شفافًا حول رفع موقع ويب موجود – على عكس مهمة DOGE ، حيث اعترف على الأقل باستخدام البيانات الاصطناعية.
مانوس ليس مستعدًا للذهاب منفردا بعد
مانوس رائعة لمشاهدتها في العمل ، ولكن في الوقت الحالي ، فهي بعيدة عن الوكيل المستقل تمامًا الذي يدعي أنه.
ومع ذلك ، فإن الاختبارين اللذين رميتهما في مانوس لم يكن رسميًا أو علميًا. على معايير GAIA-وهو مقياس أكثر قوة لأداة الذكاء الاصطناعى-يدعي Manus أنه يتفوق على Openai's DeepResearch و GPT-4.
على الرغم من أنها ليست جاهزة للعمل بمفردها ، إلا أنها لا تزال نسخة مبكرة من الأداة.
يمكن أن يكون مساعدًا قويًا لمنظمة العفو الدولية إذا استقر ، ويحسن موثوقية البيانات ، ويتوقف عن جعل الأمور. في الوقت الحالي ، إنه أكثر من متدرب بحث أكثر من المشغل المستقل تمامًا.
لم يرد مانوس على الفور على طلب للتعليق من Business Insider.