در حال حاضر پیکسل ۸ پرو مجهز به تراشهی Tensor 3 تنها دستگاه سازگار با جمنای نانو است و قرار است در بهروزرسانی آینده از قابلیتهای هوش مصنوعی چون خلاصهسازی خودکار در اپلیکیشن Recorder و قابلیت Smart Reply در کیبورد Gboard بهره ببرد. البته گوگل ماجرا را از این هم پیچیدهتر کرده و میگوید جمنای نانو بسته به ظرفیت رم گوشی در دو مدل Nano-1 با ۱٫۸ میلیارد پارامتر و Nano-2 با ۳٫۲۵ میلیارد پارامتر عرضه خواهد شد.
گوگل، مدل هوش مصنوعی جمنای را اینگونه توصیف میکند:
جمنای به روش کاملا جدیدی برای اهداف چندوجهی (multimodality)، یعنی استدلال و جابهجایی روان و یکپارچه بین متن، تصویر، ویدیو، صدا و کد توسعه یافته است.
گوگل در تعریف جمنای به دفعات به کلمهی «چندوجهی» بودن، آن هم بهصورت بومی اشاره میکند. اما منظور از چندوجهی بودن مدل هوش مصنوعی دقیقا چیست؟
چندوجهی بودن جمنای به این معنی است که گوگل برای آموزش دادن مدل صرفا به متن بسنده نکرده و آن را با مقادیر عظیمی از کد، فایلهای صوتی، تصاویر و ویدیو بهبود داده است؛ برای همین، جمنای میتواند بههمان راحتی که به درخواستهای متنی پاسخ میدهد، از پرامپتهای صوتی و حتی ویدیویی هم سر در بیاورد.
قدرت استدلال چندوجهی و تکنیک «کاملا جدید» در توسعه جمنای
ایلای کالینز (Eli Collins) معاون محصول دیپمایند در توضیح مختصری که از مدلهای چندوجهی مدعی شد که جمنای اولترا میتواند اطلاعات «بسیار جزیی» را در متن، تصویر، صدا و کد درک کند و به سوالات مربوط به موضوعات پیچیده، بهویژه مسائل ریاضی و فیزیک پاسخ دهد.
روش استاندارد در ساخت مدلهای چندوجهی، آموزش اجزای جداگانهی مدل با وجههای مختلف است. این مدلها در انجام وظایف خاصی مانند توصیف تصویر بسیار خوب هستند، اما هنگام رویارویی با تسکهایی که به استدلال مفهومی و پیچیدهتر نیاز دارند، دچار مشکل میشوند. برای همین ما جمنای را بهصورت بومی چندوجهی طراحی کردیم تا از پس این مشکل برآید.
از این توضیحات نمیتوان تفاوت جادویی جمنای را از مدلهای رقیب متوجه شد، چون حتی این بحث «چندوجهی» بودن و توانایی تجزیهوتحلیل ویدیو پیشتر در مدل GPT-4 with Vision دیده شده بود. البته بهبود قدرت استدلال مدل در رسیدن به هوش مصنوعی فرا انسانی بسیار مهم است و گوگل مدعی است برای تقویت استدلال جمنای از روش کاملا جدیدی استفاده کرده است؛ هرچند تمایلی به توضیح دربارهی این روش ندارد.
گوگل: جمنای درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد
بااینحال، دمیس هاسابیس (Demis Hassabis)، رهبر تیم توسعهی جمنای که پیشتر رهبری تیم توسعهدهندهی بات آلفاگو را برعهده داشت، مدعی شد این مدل قابلیتهای جدیدی را ارائه خواهد داد که درنهایت منجر به متمایزشدن محصولات گوگل از رقبا خواهد شد. او همچنین گفت برای اینکه سیستمهای هوش مصنوعی بتوانند جهان را بهتر از چتباتهای امروزی درک کنند، مدلهای زبانی بزرگ لازم است با سایر تکنیکهای هوش مصنوعی ترکیب شوند.
تااینجا، مدلهای زبانی بزرگ ازجمله GPT-4 با خوراندن حجم عظیمی از دادههای متنی آموزش دیدهاند و برخی از پژوهشگران هوش مصنوعی معتقدند هرچه بر حجم این دادهها افزوده شود، مدل قدرتمندتر خواهد شد؛ تا جایی که بتوانند از هوش انسانی پیشی بگیرند.
اما شناخت واقعیت فیزیکی از درون لنز متونی که انسانها دربارهاش نوشتهاند، بالاخره جایی به بنبست میخورد و نقاط ضعف مدلهای زبانی بزرگ، ازجمله هذیانگویی، استدلال ضعیف و مشکلات امنیتی عجیبوغریب آنها این واقعیت را آشکار میکند که صرف افزایش حجم داده احتمالا هیچگاه به دستیابی به «فراهوش مصنوعی» منجر نشود.
اگرچه گوگل خودش را در رقابتی نفسگیر با OpenAI قرار داده است، هر دو رقیب گویا به این نتیجه رسیدهاند که برای بهبود وضعیت هوش مصنوعی لازم است به روشهای کاملا جدیدی روی آورد. درحال حاضر، OpenAI مشغول توسعهی پروژهی مخفی و مرموزی بهنام *Q است که از تکنیکهای جدیدی در آن استفاده شده و ظاهرا قرار است این شرکت را یک قدم به هوش فرا انسانی معروفبه AGI نزدیکتر کند.
سمآلتمن، مدیرعامل OpenAI چند ماه پیش گفته بود که «من بر این باورم که به پایان عصری رسیدیم که مدلهای هوش مصنوعی فوقالعاده عظیم بتوانند راهگشا باشند. برای بهبود این مدلها سراغ روشهای دیگری خواهیم رفت.»
اما آیا جمنای همانطور که گوگل میگوید آغاز عصر جدید هوش مصنوعی است؟ فعلا برای رسیدن به این نتیجهگیری بسیار زود است؛ بهویژه چون عملکرد جمنای پرو در چتبات بارد هنوز نتوانسته بهبود چشمگیری نسبتبه GPT-4 از خود نشان دهد و تا عرضهی جمنای اولترا و بررسی تواناییهای آن چند ماه دیگر مانده است.
ماجرای ویدیوی دستکاری شدهی جمنای چه بود؟
زمانی که داشتم مقایسهی بینگ چت، بارد و چتجیپیتی را مینوشتم، به این نتیجه رسیدم که بزرگترین باخت چتبات گوگل در رقابت با بینگ چت و ChatGPT در حوزهی مارکتینگ و زمان انتشار بود. یعنی اگر بارد بعد از هیاهوی تبلیغاتی ChatGPT و پیش از بینگ چت منتشر شده بود، میتوانست بهخاطر قابلیت اتصال به اینترنت و دسترسی به دادههای بهروز مزیتی نسبتبه ChatGPT داشته باشد. اما بارد هنگام عرضه بسیار محدودتر از بینگ چت بود و ماجرای خطای علمی و سرقت ادبی هم بهشدت بهضررش تمام شد. در سایهی تمام این اشتباهات و محدودیتها، عجیب نبود که بارد بهسرعت به دست فراموشی سپرده شود.
اما گوگل این بار با معرفی جمنای قصد داشت ضعف در مارکتینگ و زمان انتشار را جبران کند، طوریکه ظاهرا پروژه را بسیار زودتر از زمان مناسب منتشر کرد و برای تبلیغ قابلیتهای اعجابانگیزش از ویدیویی استفاده کرد که حسابی در رسانهها و شبکههای اجتماعی خبرساز شد؛ در دقایق ابتدایی، دقیقا به همان دلیلی که گوگل برایش برنامهریزی کرده بود، اما کمی بعد مشخص شد این ویدیوی شگفتانگیز آنقدرها هم که فکرش را میکردیم، جادویی نیست.
اغراق میکنم تماشای این ویدیوی ۶ دقیقهای از عملکرد جمنای نفسها را در سینه حبس میکند. گوگل در این دمو به ما نشان میدهد که چگونه قدرتمندترین هوش مصنوعیاش توانایی تجزیهوتحلیل «ویدیو» را دارد و میتواند در لحظه پرامپتهای صوتی و ویدیویی را آنالیز کند، استدلال کند و مناسبترین پاسخ را در کسری از ثانیه ارائه دهد.
ویدئوی شگفتانگیز جمنای واقعی نیست!
مثلا میبینیم که چطور جمنای میتواند در هر مرحله از تکمیل شدن طرح یک اردک، به درستی از خطوط کشیدهشده سر دربیاورد؛ یا بهدرستی حرکت دست روی نقشه را دنبال کند و جواب درست را تشخیص دهد؛ یا از این هم شگفتانگیزتر؛ بهدرستی تشخیص دهد کاغذ مچالهشده زیر کدام لیوان پنهان شده است یا متوجه شعبدهبازی ناپدید کردن سکه در دست شود یا ویدیوی در حال پخش از گوشی پیکسلی را تحلیل کند که خودش دارد از ویدیوی دیگری پخش میشود!
اما وقتی از تماشای ویدیو دست میکشیم و به بُعد عملی قضیه فکر میکنیم، سوالات زیادی ذهن را درگیر میکنند. چطور ممکن است یک مدل زبانی بزرگ، هرچقدر هم قدرتمند، بتواند این چنین روان با ویدیویی در حال پخش در دل ویدویی دیگر ارتباط برقرار کند؟ چطور ممکن است هوش مصنوعی بهجایی رسیده باشد که بتواند سریع و روان بین پرامپتهای مختلف جابهجا شود؟
دموی تبلیغاتی جمنای فریبکارانه بود
نکته اینجا است که دموی تبلیغاتی گوگل ما را فریب داد. البته شاید استفاده از لفظ «فریب» کاملا درست نباشد؛ بهویژه اگر نظر خود گوگل را بپرسید، چون احتمالا خواهد گفت هم در ابتدای دمو و هم در بخش توضیحات یوتیوب، هشدارهای لازم را داده است. مثلا اینکه گفته به مدل «یک سری تصویر» نشان داده است تا خودمان به این نتیجه برسیم که چیزی که به صورت ویدیو به ما نمایش داده شد، واقعی نیست. در توضیحات یوتیوب هم نوشته است که برای کوتاه کردن ویدیو، تاخیر در پاسخ مدل کم شده و جوابهای جمنای هم خلاصه شدهاند.
اما باوجود این توضیحات که احتمالا خود گوگل هم میدانسته پشت قابلیتهای «جادویی» جمنای گم خواهند شد، این حقیقت کماکان پابرجا است که آنچه در دموی معرفی این هوش مصنوعی دیدیم، آنطور نیست که به نظر میآید.
در دموی جمنای فردی را میبینیم که با این مدل صحبت میکند، آنطور که مثلا شخصیت تئودور در فیلم Her با هوش مصنوعی سامانتا صحبت میکند؛ اما در واقعیت، مکالمهی بین این فرد با جمنای کاملا متنی بود.
در دمو همچنین میبینیم که جمنای دارد در لحظه با ویدیوی متحرک ارتباط برقرار میکند، اما در واقعیت، صرفا در حال تجزیهوتحلیل تصاویر ساکن بوده است؛ همانطور که گوگل در پستی دربارهی نحوهی ساخت دموی جمنای به آن اشاره کرده است.