متا لایه های حافظه مقیاس پذیر جدیدی را پیشنهاد می کند که شناخت را بهبود می بخشد و توهمات را کاهش می دهد
انتشار: دی 19، 1403
بروزرسانی: 23 خرداد 1404

متا لایه های حافظه مقیاس پذیر جدیدی را پیشنهاد می کند که شناخت را بهبود می بخشد و توهمات را کاهش می دهد


به خبرنامه های روزانه و هفتگی ما بپیوندید تا آ،ین به روزرس، ها و محتوای انحصاری را در زمینه پوشش هوش مصنوعی پیشرو در صنعت ما دریافت کنید. او بیشتر یاد می گیرد


از آنجایی که شرکت ها همچنان به استفاده از مدل های زبان بزرگ (LLM) در کاربردهای مختلف ادامه می دهند، یکی از چالش های اصلی آنها بهبود دانش دنیای واقعی از مدل ها و کاهش توهم است. در مقاله ای جدید، محققان Meta AI «لایه های حافظه مقیاس پذیر» را پیشنهاد ،د که می تواند یکی از چندین راه حل بالقوه برای این مشکل باشد.

لایه های حافظه مقیاس پذیر پارامترهای بیشتری را به LLM ها اضافه می کنند تا توانایی یادگیری آنها را بدون نیاز به منابع مح،اتی اضافی افزایش دهند. این معماری برای برنامه هایی مفید است که می تو،د حافظه اضافی برای دانش دنیای واقعی فراهم کنید، اما همچنین می خواهید سرعت استنتاج را برای مدل های چابک تر فراهم کنید.

لایه های متراکم و حافظه

مدل های زبان سنتی از «لایه های متراکم» برای رمزگذاری حجم عظیمی از اطلاعات در پارامترهای خود استفاده می کنند. در لایه های متراکم، تمام پارامترها به طور کامل مورد استفاده قرار می گیرند و ا،راً در یک زمان در طول استنتاج فعال می شوند. لایه های متراکم می توانند توابع پیچیده را یاد بگیرند و افزایش این توابع به منابع مح،اتی و انرژی اضافی نیاز دارد.

در مقابل، برای دانش واقعی ساده، ک، های بسیار ساده تر با ساختارهای حافظه انجمنی کارآمدتر و قابل تفسیرتر خواهند بود. این کاری است که لایه های حافظه انجام می دهند. آنها از فعال سازی های پراکنده ساده و مک،سم های جستجوی کلید-مقدار برای رمزگذاری و بازیابی دانش استفاده می کنند. لایه های پراکنده حافظه بیشتری نسبت به لایه های متراکم مصرف می کنند، اما تنها از بخش کوچکی از پارامترها در یک زمان استفاده می کنند که باعث می شود مح،ات کارآمدتری داشته باشند.

لایه های حافظه سال هاست که وجود داشته اند، اما به ندرت در معماری های یادگیری عمیق مدرن استفاده می شوند. برای شتاب دهنده های سخت افزاری فعلی بهینه نشده است.

برنامه های مرزی LLM موجود معمولاً از نوعی معماری ،یبی از متخصصان (MoE) استفاده می کنند که از مک،زمی به طور مبهم شبیه به لایه های حافظه استفاده می کند. مدل های MOE شامل بسیاری از اجزای کوچک و تخصصی هستند که در کارهای خاص تخصص دارند. در زمان استنتاج، مک،سم مسیریابی تعیین می کند که کدام متخصص را بر اساس توالی ورودی فعال کند. PEER، معماری که اخیرا توسط Google DeepMind توسعه یافته است، MoE را به میلیون ها متخصص گسترش می دهد و کنترل دقیق تری بر پارامترهای فعال شده در طول استنتاج ارائه می دهد.

لایه های حافظه را ارتقا دهید

لایه های حافظه در مح،ات سبک هستند، اما برای حافظه سنگین هستند، که چالش های خاصی را برای چارچوب های سخت افزاری و نرم افزاری موجود ایجاد می کند. در مقاله خود، محققان Meta تغییرات متعددی را پیشنهاد می کنند که این چالش ها را حل کرده و استفاده گسترده را ممکن می سازد.

لایه های حافظه
لایه های حافظه می توانند دانش را به صورت موازی در چندین پردازنده گرافیکی بدون کاهش سرعت مدل ذخیره کنند (منبع: arXiv)

ابتدا، محققان لایه های حافظه را برای موازی سازی پیکربندی ،د و آن ها را در چندین GPU توزیع ،د تا میلیون ها جفت کلید-مقدار را بدون تغییر لایه های دیگر در مدل ذخیره کنند. آنها همچنین یک هسته ویژه CUDA را برای مدیریت عملیات پهنای باند حافظه بالا پیاده سازی ،د. آنها یک مک،سم به اشتراک گذاری پارامتر ایجاد ،د که از یک مجموعه واحد از پارامترهای حافظه در چندین لایه حافظه در مدل پشتیب، می کند. این بدان م،ی است که کلیدها و مقادیر مورد استفاده برای جستجوها در بین لایه ها به اشتراک گذاشته می شوند.

این تغییرات اجازه می دهد تا لایه های حافظه در LLM ها بدون کاهش سرعت مدل پیاده سازی شوند.

محققان نوشتند: «لایه های حافظه با فعال سازی های پراکنده شان به خوبی شبکه های متراکم را تکمیل می کنند و ظرفیت افزایش یافته برای ،ب دانش را فراهم می کنند و در عین حال در مح،ات سبک هستند. می تواند به طور کارآمدی مقیاس پذیری داشته باشد و یک مسیر جذاب جدید برای تجارت حافظه برای مح،ات در اختیار پزشکان قرار دهد.»

برای آزمایش لایه های حافظه، محققان مدل های لاما را با جایگزینی یک یا چند لایه متراکم با یک لایه حافظه مش، اصلاح ،د. آنها مدل های تقویت شده حافظه را با برنامه های فشرده MBA و همچنین و، آموزش و مدل های PEER در چندین کار، از جمله پاسخ گویی به سؤالات واقعی، دانش جه،، و رمزگذاری علمی و منطقی مقایسه ،د.

مدل حافظه در مقابل لایه های متراکم
مدل حافظه 1.3B (خط جامد) آموزش داده شده بر روی 1 تریلیون نماد به عملکرد مدل 7B (خط چین) در پاسخگویی به سوالات واقعی نزدیک می شود زیرا پارامترهای حافظه بیشتری به آن داده می شود (منبع: arxiv)

نتایج آن ها نشان می دهد که مدل های حافظه در خطوط پایه متراکم به طور قابل توجهی بهبود می یابند و از مدل هایی که از مح،ات ۲ برابر تا ۴ برابر بیشتر استفاده می کنند، بهتر عمل می کنند. آنها همچنین عملکرد مدل های MoE را با همان بودجه مح،اتی و تعداد پارامترها مطابقت می دهند. عملکرد مدل به ویژه در کارهایی که نیاز به دانش واقعی دارند قابل توجه است. به ،وان مثال، هنگام پاسخ دادن به سؤالات دنیای واقعی، مدل حافظه با 1.3 میلیارد پارامتر به عملکرد Llama-2-7B نزدیک می شود که بر روی دو برابر توکن ها و 10 برابر مح،ات بیشتر آموزش داده شده بود.

علاوه بر این، محققان دریافتند که مزایای مدل های حافظه با اندازه مدل مطابقت دارد زیرا آزمایش های خود را از 134 میلیون به 8 میلیارد پارامتر تغییر دادند.

محققان نوشتند: «با توجه به این نتایج، ما قویاً از نیاز به ادغام لایه های حافظه در تمام معماری های نسل بعدی هوش مصنوعی حمایت می کنیم.» و افزودند که هنوز جای بیشتری برای بهبود وجود دارد. به ویژه، ما امیدواریم که روش های آموزشی جدیدی توسعه یابد تا اثربخشی این ک، ها را بیش از پیش افزایش دهد، و باعث کاهش فراموشی، کاهش توهمات و یادگیری مداوم شود.»

بینش روزانه در مورد موارد استفاده تجاری با VB Daily

اگر می خواهید رئیس خود را تحت تأثیر قرار دهید، VB Daily شما را تحت پوشش قرار می دهد. ما اطلاعاتی در مورد آنچه شرکت ها با هوش مصنوعی مولد انجام می دهند، از تحولات سازم، گرفته تا استقرار عملی به شما ارائه می دهیم، بنابراین می تو،د بینش هایی را برای به حدا،ر رساندن بازگشت سرمایه به اشتراک بگذارید.

سیاست حفظ حریم خصوصی ما را بخو،د

با تشکر برای اشتراک. خبرنامه های بیشتر VB را اینجا ببینید.

خطایی رخ داد.


منبع: https://venturebeat.com/ai/meta-proposes-new-scalable-memory-layers-that-improve-knowledge-reduce-hallucinations/