"دنيا ۾ سڀ کان هوشيار" گروڪ 3 جي جانچ ڪندي

اي پي يو واٽن گروپ (1)

تعارف

ڇا توهان سمجهو ٿا ته گروڪ 3 اڳ ۾ تربيت يافته ماڊلز جو "آخري نقطو" هوندو؟

ايلون مسڪ ۽ xAI ٽيم سرڪاري طور تي هڪ لائيو اسٽريم دوران Grok جو جديد نسخو، Grok3، لانچ ڪيو. هن تقريب کان اڳ، مسڪ جي 24/7 پروموشنل هائپ سان گڏ، Grok3 لاءِ عالمي اميدن کي بي مثال سطح تائين وڌايو. صرف هڪ هفتو اڳ، مسڪ ڊيپ سيڪ R1 تي تبصرو ڪندي هڪ لائيو اسٽريم دوران اعتماد سان چيو، "xAI هڪ بهتر AI ماڊل لانچ ڪرڻ وارو آهي." لائيو پيش ڪيل ڊيٽا مان، Grok3 رپورٽ موجب رياضي، سائنس ۽ پروگرامنگ جي معيارن ۾ سڀني موجوده مين اسٽريم ماڊلز کي پوئتي ڪري ڇڏيو آهي، مسڪ اهو به دعويٰ ڪيو ته Grok3 کي SpaceX جي مريخ مشن سان لاڳاپيل ڪمپيوٽيشنل ڪمن لاءِ استعمال ڪيو ويندو، "ٽن سالن اندر نوبل انعام جي سطح تي ڪاميابيون" جي اڳڪٿي ڪندي. بهرحال، اهي في الحال صرف مسڪ جا دعويٰ آهن. لانچ کان پوءِ، مون Grok3 جي تازي بيٽا ورزن جي آزمائش ڪئي ۽ وڏن ماڊلز لاءِ ڪلاسڪ ٽرڪ سوال ڪيو: "ڪهڙو وڏو آهي، 9.11 يا 9.9؟" افسوس سان، ڪنهن به قابليت يا نشانن کان سواءِ، سڀ کان هوشيار گروڪ 3 اڃا تائين هن سوال جو صحيح جواب نه ڏئي سگهيو. گروڪ 3 سوال جي معنيٰ کي صحيح طور تي سڃاڻڻ ۾ ناڪام ٿيو.

 

هن ٽيسٽ جلدي ڪيترن ئي دوستن کان ڪافي ڌيان ڇڪايو، ۽ اتفاق سان، ٻاهرين ملڪن ۾ مختلف ساڳين ٽيسٽن گروڪ 3 کي بنيادي فزڪس/رياضي جي سوالن سان جدوجهد ڪندي ڏيکاريو آهي جهڙوڪ "ڪهڙي بال پيسا جي ليننگ ٽاور مان پهرين ڪري ٿي؟" ان ڪري، ان کي مزاحيه طور تي "هڪ ذهين ماڻهو جيڪو سادو سوالن جا جواب ڏيڻ لاءِ تيار نه آهي" جي طور تي ليبل ڪيو ويو آهي.

640

گروڪ 3 سٺو آهي، پر اهو آر 1 يا او 1-پرو کان بهتر ناهي.

گروڪ 3 کي عملي طور تي ڪيترن ئي عام علم جي تجربن ۾ "ناڪاميون" جو تجربو ٿيو. xAI لانچ ايونٽ دوران، مسڪ گيم پاٿ آف ايڪسائل 2 جي ڪردار ڪلاسز ۽ اثرات جو تجزيو ڪرڻ لاءِ گروڪ 3 استعمال ڪندي ڏيکاريو، جنهن کي هن اڪثر کيڏڻ جو دعويٰ ڪيو، پر گروڪ 3 پاران مهيا ڪيل گھڻا جواب غلط هئا. لائيو اسٽريم دوران مسڪ هن واضح مسئلي کي محسوس نه ڪيو.

 

هن غلطي نه رڳو پرڏيهي نيٽيزن لاءِ گيمنگ ۾ "متبادل ڳولڻ" لاءِ مسڪ جو مذاق اڏائڻ لاءِ وڌيڪ ثبوت فراهم ڪيا پر عملي ايپليڪيشنن ۾ گروڪ 3 جي اعتبار بابت اهم خدشا پڻ پيدا ڪيا. اهڙي "جينيئس" لاءِ، ان جي حقيقي صلاحيتن کان سواءِ، انتهائي پيچيده ايپليڪيشن منظرنامي ۾ ان جي اعتبار، جهڙوڪ مريخ جي ڳولا جا ڪم، شڪ ۾ رهي ٿو.

 

في الحال، ڪيترائي ٽيسٽر جن کي هفتا اڳ Grok3 تائين رسائي ملي هئي، ۽ جن ڪالهه ڪجهه ڪلاڪن لاءِ ماڊل صلاحيتن کي آزمايو، اهي سڀ هڪ عام نتيجي ڏانهن اشارو ڪن ٿا: "Grok3 سٺو آهي، پر اهو R1 يا o1-Pro کان بهتر ناهي."

640 (1)

"اينويڊيا کي خراب ڪرڻ" تي هڪ نازڪ نقطه نظر

رليز دوران سرڪاري طور تي پيش ڪيل پي پي ٽي ۾، گروڪ 3 کي چيٽ بوٽ ارينا ۾ "تمام گهڻو اڳتي" ڏيکاريو ويو، پر هن هوشياري سان گرافڪ ٽيڪنڪ استعمال ڪئي: ليڊر بورڊ تي عمودي محور صرف 1400-1300 اسڪور جي حد ۾ نتيجا درج ڪيا، جنهن جي ڪري ٽيسٽ جي نتيجن ۾ اصل 1٪ فرق هن پيشڪش ۾ غير معمولي طور تي اهم نظر اچي ٿو.

640

اصل ماڊل اسڪورنگ جي نتيجن ۾، Grok3 DeepSeek R1 ۽ GPT-4.0 کان صرف 1-2٪ اڳتي آهي، جيڪو عملي تجربن ۾ ڪيترن ئي استعمال ڪندڙن جي تجربن سان مطابقت رکي ٿو جن کي "ڪو به قابل ذڪر فرق نه مليو". Grok3 صرف 1٪-2٪ کان پنهنجي جانشين کان وڌيڪ آهي.

640

جيتوڻيڪ Grok3 سڀني عوامي طور تي آزمايل ماڊلز کان وڌيڪ اسڪور ڪيو آهي، ڪيترائي ان کي سنجيدگي سان نه ٿا وٺن: آخرڪار، xAI تي اڳ ۾ Grok2 دور ۾ "اسڪور مينيپوليشن" لاءِ تنقيد ڪئي وئي آهي. جيئن ليڊر بورڊ جواب جي ڊيگهه جي انداز کي سزا ڏني، اسڪور تمام گهٽجي ويا، جنهن جي ڪري صنعت جا اندروني ماڻهو اڪثر ڪري "اعليٰ اسڪورنگ پر گهٽ صلاحيت" جي رجحان تي تنقيد ڪندا آهن.

 

ڇا ليڊر بورڊ "هيراڦيري" ذريعي يا تصويرن ۾ ڊيزائن جي چالن ذريعي، اهي ماڊل صلاحيتن ۾ "پيڪ جي اڳواڻي" جي تصور سان xAI ۽ مسڪ جي جنون کي ظاهر ڪن ٿا. مسڪ انهن مارجن لاءِ هڪ وڏي قيمت ادا ڪئي: لانچ دوران، هن 200,000 H100 GPUs استعمال ڪرڻ (لائيو اسٽريم دوران "100,000 کان وڌيڪ" دعويٰ ڪندي) ۽ 200 ملين ڪلاڪن جي ڪل تربيتي وقت حاصل ڪرڻ جو فخر ڪيو. ان ڪري ڪجهه ماڻهن کي يقين ٿيو ته اهو GPU انڊسٽري لاءِ هڪ ٻيو اهم فائدو آهي ۽ ڊيپ سيڪ جي شعبي تي اثر کي "بيوقوف" سمجهيو وڃي ٿو. خاص طور تي، ڪجهه ماڻهن جو خيال آهي ته خالص ڪمپيوٽيشنل طاقت ماڊل ٽريننگ جو مستقبل هوندو.

 

جڏهن ته، ڪجهه نيٽيزن ڊيپ سيڪ وي 3 پيدا ڪرڻ لاءِ ٻن مهينن دوران 2000 H800 GPUs جي استعمال جو مقابلو ڪيو، اهو حساب ڪيو ته گروڪ 3 جو اصل ٽريننگ پاور استعمال وي 3 جي ڀيٽ ۾ 263 ڀيرا آهي. ڊيپ سيڪ وي 3، جنهن 1402 پوائنٽس حاصل ڪيا، ۽ گروڪ 3 جي وچ ۾ فرق صرف 100 پوائنٽس کان گهٽ آهي. هن ڊيٽا جي جاري ٿيڻ کان پوءِ، ڪيترن ئي جلدي محسوس ڪيو ته گروڪ 3 جي "دنيا جي مضبوط ترين" جي لقب جي پويان هڪ واضح حد تائين افاديت جو اثر آهي - مضبوط ڪارڪردگي پيدا ڪندڙ وڏن ماڊلز جي منطق گهٽجندڙ واپسي ڏيکارڻ شروع ڪيو آهي.

640 (2)

جيتوڻيڪ "هاءِ اسڪورنگ پر گهٽ قابليت" سان، Grok2 وٽ X (Twitter) پليٽ فارم تان استعمال جي حمايت لاءِ وڏي مقدار ۾ اعليٰ معيار جي پهرين پارٽي ڊيٽا هئي. جڏهن ته، Grok3 جي تربيت ۾، xAI قدرتي طور تي "ڇت" جو سامنا ڪيو جيڪو OpenAI هن وقت منهن ڏئي ٿو - پريميئم ٽريننگ ڊيٽا جي کوٽ تيزي سان ماڊل جي صلاحيتن جي معمولي افاديت کي ظاهر ڪري ٿي.

 

گروڪ 3 ۽ مسڪ جا ڊولپر شايد پهريان ئي انهن حقيقتن کي سمجھن ٿا ۽ انهن کي ڳوڙها سمجهن ٿا، اهو ئي سبب آهي ته مسڪ مسلسل سوشل ميڊيا تي ذڪر ڪيو آهي ته جيڪو نسخو استعمال ڪندڙ هاڻي تجربو ڪري رهيا آهن اهو "اڃا تائين صرف بيٽا" آهي ۽ "مڪمل نسخو ايندڙ مهينن ۾ جاري ڪيو ويندو." مسڪ گروڪ 3 جي پراڊڪٽ مئنيجر جو ڪردار ادا ڪيو آهي، صارفين کي تبصري سيڪشن ۾ پيش ايندڙ مختلف مسئلن تي موٽ ڏيڻ جو مشورو ڏئي ٿو. هو شايد ڌرتيءَ تي سڀ کان وڌيڪ فالو ڪيل پراڊڪٽ مئنيجر هجي.

 

تڏهن به، هڪ ڏينهن اندر، گروڪ 3 جي ڪارڪردگي بلاشبہ انهن لاءِ الارم وڌائي ڇڏيو جيڪي مضبوط وڏن ماڊلز کي تربيت ڏيڻ لاءِ "وڏي ڪمپيوٽيشنل عضلات" تي ڀروسو ڪرڻ جي اميد رکن ٿا: عوامي طور تي دستياب Microsoft معلومات جي بنياد تي، اوپن اي آءِ جي GPT-4 جو پيرا ميٽر سائيز 1.8 ٽريلين پيرا ميٽر آهي، جيڪو GPT-3 کان ڏهه ڀيرا وڌيڪ آهي. افواهون تجويز ڪن ٿيون ته GPT-4.5 جو پيرا ميٽر سائيز اڃا به وڏو ٿي سگهي ٿو.

 

جيئن ماڊل پيرا ميٽر سائيز وڌندا آهن، تربيتي خرچ پڻ آسمان کي ڇُهندڙ آهن. گروڪ 3 جي موجودگي سان، GPT-4.5 ۽ ٻيا جيڪي پيرا ميٽر سائيز ذريعي بهتر ماڊل ڪارڪردگي حاصل ڪرڻ لاءِ "پيسا ساڙڻ" جاري رکڻ چاهين ٿا، انهن کي ان ڇت تي غور ڪرڻ گهرجي جيڪا هاڻي واضح طور تي نظر ۾ آهي ۽ ان تي ڪيئن قابو پائڻ تي غور ڪرڻ گهرجي. هن وقت، اوپن اي آءِ جي اڳوڻي چيف سائنسدان، اليا سٽسڪيور، گذريل ڊسمبر ۾ اڳ ۾ چيو هو، "جنهن پري ٽريننگ سان اسان واقف آهيون اهو ختم ٿي ويندو،" جيڪو بحثن ۾ ٻيهر اڀري آيو آهي، وڏن ماڊلز جي تربيت لاءِ سچو رستو ڳولڻ جي ڪوششن کي تيز ڪري ٿو.

640 (3)

اليا جي نقطه نظر صنعت ۾ خطري جي گھنٽي وڄائي ڇڏي آهي. هن صحيح طور تي نئين رسائي واري ڊيٽا جي فوري ختم ٿيڻ جو اندازو لڳايو، جنهن جي نتيجي ۾ هڪ اهڙي صورتحال پيدا ٿي جتي ڪارڪردگي ڊيٽا حاصل ڪرڻ ذريعي بهتر نه ٿي سگهي، ان کي فوسل ايندھن جي ختم ٿيڻ سان تشبيهه ڏني. هن اشارو ڪيو ته "تيل وانگر، انٽرنيٽ تي انساني پيدا ڪيل مواد هڪ محدود وسيلو آهي." سٽسڪيور جي اڳڪٿين ۾، ماڊلز جي ايندڙ نسل، پوسٽ پري ٽريننگ، "انساني دماغ وانگر" "سچي خودمختياري" ۽ استدلال جي صلاحيتون رکندا.

 

اڄ جي اڳ ۾ تربيت يافته ماڊلز جي برعڪس جيڪي بنيادي طور تي مواد جي ميلاپ تي ڀاڙين ٿا (اڳ ۾ سکيا ويا ماڊل مواد جي بنياد تي)، مستقبل جا AI سسٽم انساني دماغ جي "سوچ" جي برابر طريقي سان مسئلن کي حل ڪرڻ لاءِ طريقا سکڻ ۽ قائم ڪرڻ جي قابل هوندا. هڪ انسان صرف بنيادي پيشه ورانه ادب سان هڪ موضوع ۾ بنيادي مهارت حاصل ڪري سگهي ٿو، جڏهن ته هڪ AI وڏي ماڊل کي صرف سڀ کان بنيادي داخلا-سطح جي اثرائتي حاصل ڪرڻ لاءِ لکين ڊيٽا پوائنٽس جي ضرورت هوندي آهي. جيتوڻيڪ جڏهن لفظ ٿورو تبديل ڪيو وڃي، اهي بنيادي سوال صحيح طور تي سمجهي نه سگهجن ٿا، اهو ظاهر ڪري ٿو ته ماڊل حقيقي طور تي ذهانت ۾ بهتر نه ٿيو آهي: مضمون جي شروعات ۾ ذڪر ڪيل بنيادي پر ناقابل حل سوال هن رجحان جي هڪ واضح مثال جي نمائندگي ڪن ٿا.

微信图片_20240614024031.jpg1

ٿڪل

جڏهن ته، وحشي طاقت کان ٻاهر، جيڪڏهن گروڪ 3 واقعي صنعت کي اهو ظاهر ڪرڻ ۾ ڪامياب ٿي وڃي ٿو ته "اڳ ۾ تربيت يافته ماڊل پنهنجي پڄاڻي جي ويجهو اچي رهيا آهن،" ته اهو فيلڊ لاءِ اهم اثر کڻندو.

شايد جڏهن Grok3 جي چوڌاري جنون آهستي آهستي گهٽجي ويندو، ته اسان وڌيڪ ڪيس ڏسندا سين جهڙوڪ Fei-Fei Li جي مثال "صرف $50 ۾ هڪ مخصوص ڊيٽا سيٽ تي اعليٰ ڪارڪردگي ماڊلز کي ٽيوننگ ڪرڻ،" آخرڪار AGI جو سچو رستو دريافت ڪرڻ.

ELV ڪيبل حل ڳوليو

ڪنٽرول ڪيبل

بي ايم ايس، بس، صنعتي، اوزارن جي ڪيبل لاءِ.

منظم ڪيبلنگ سسٽم

نيٽ ورڪ ۽ ڊيٽا، فائبر آپٽڪ ڪيبل، پيچ ڪارڊ، ماڊلز، فيس پليٽ

2024 نمائشون ۽ واقعا جائزو

اپريل 16-18، 2024 دبئي ۾ وچ اوڀر توانائي

اپريل 16-18، 2024 ماسڪو ۾ سيڪيوريڪا

9 مئي 2024 تي شنگھائي ۾ نوان پراڊڪٽس ۽ ٽيڪنالاجيز لانچ ايونٽ

آڪٽوبر 22-25، 2024 سيڪيورٽي چائنا بيجنگ ۾

نومبر 19-20، 2024 ڪنيڪٽڊ ورلڊ سعودي عرب


پوسٽ جو وقت: فيبروري-19-2025