به خبرنامههای روزانه و هفتگی ما بپیوندید تا آ،ین بهروزرس،ها و محتوای انحصاری را در زمینه پوشش هوش مصنوعی پیشرو در صنعت ما دریافت کنید. بیشتر بد،د
موسسه آلن برای هوش مصنوعی (Ai2) امروز مولمو را معرفی کرد، یک خانواده منبع باز از مدل های پیشرفته هوش مصنوعی چندوجهی که از رقبای اصلی مانند GPT-4o OpenAI، غزل کلود 3.5 Anthropic و Gemini 1.5 گوگل در بسیاری از استانداردهای شخص ثالث بهتر عمل می کند.
بنابراین، مدلها میتوانند تصاویر بارگذاری شده توسط کاربران را مشابه مدلهای مؤسسات اختصاصی پیشرو بپذیرند و آنها را تحلیل کنند.
با این حال، Ai2 همچنین در یک پست در
Ai2 میگوید این نسخه بر تعهد آن به تحقیقات باز با ارائه مدلهای با کارایی بالا، کامل با وزن و دادههای باز، برای جامعه گستردهتر – و البته، شرکتهایی که به دنبال راهحلهایی هستند که میتوانند به طور کامل مالک، کنترل و سفارشیسازی شوند، تأکید میکند.
این به دنبال انتشار دو هفته پیش Ai2 یک مدل باز دیگر به نام OLMoE است که «،یبی از متخصصان» یا مجموعهای از مدلهای کوچکتر طراحی شده برای مقرونبهصرفه بودن است.
پر ، شکاف بین هوش مصنوعی باز و هوش مصنوعی اختصاصی
مولمو از چهار مدل اصلی با اندازه پارامترها و قابلیت های مختلف تشکیل شده است:
- Molmo-72B (72 میلیارد پارامتر یا تنظیمات – مدل پیشرو، بر اساس مدل منبع باز Alibaba Cloud Qwen2-72B)
- Molmo-7B-D (“مدل آزمایشی” بر اساس مدل Qwen2-7B علی بابا)
- Molmo-7B-O (بر اساس مدل OLMo-7B Ai2)
- MolmoE-1B (بر اساس ،یب تخصصی LLM OLMoE-1B-7B، که Ai2 می گوید: “تقریباً با عملکرد GPT-4V در معیارهای ترجیحی آکادمیک و کاربر مطابقت دارد.”)
این مدلها عملکرد بالایی را در طیفی از معیارهای شخص ثالث به دست میآورند و از بسیاری از جایگزینهای اختصاصی بهتر عمل میکنند. همه آنها تحت مجوزهای مجاز Apache 2.0 در دسترس هستند و تقریباً هر نوع استفاده را برای تحقیق و بازاریابی (به ،وان مثال، در سطح سازم،) امکان پذیر می کنند.
قابل ذکر است که Molmo-72B در ارزیابیهای آکادمیک پیشتاز است، با ،ب امتیازات برتر در 11 معیار کلیدی و رتبه دوم در اولویتهای کاربر، که بسیار عقبتر از GPT-4o است.
Vaibhav Srivastav، مهندس ارشد توسعه یادگیری ماشین در شرکت م،ن کد هوش مصنوعی Hugging Face، در مورد انتشار در X اظهار نظر کرد و تاکید کرد که Molmo جایگزین فوقالعادهای برای سیستمهای بسته ارائه میکند و استاندارد جدیدی برای هوش مصنوعی چندوجهی باز ایجاد میکند.
بهعلاوه، تد شیائو، محقق رباتیک Google DeepMind، گنجاندن دادههای سیگنال در مولمو را ستایش کرده است، که به نظر او تغییری اساسی در زمینه بصری در رباتیک است.
این توانایی به Molmo اجازه می دهد تا توضیحات بصری و تعامل موثرتری با محیط های فیزیکی ارائه دهد، ویژگی که ا،ر مدل های چند رسانه ای دیگر در حال حاضر فاقد آن هستند.
این مدلها نه تنها عملکرد بالایی دارند، بلکه کاملاً باز هستند و به محققان و توسعهدهندگان اجازه میدهند به فناوریهای پیشرفته دسترسی داشته باشند و بر اساس آنها کار کنند.
مدل پیشرفته در معماری و رویکرد آموزشی
معماری مولمو برای حدا،ر کارایی و کارایی طراحی شده است. همه مدلها از مدل CLIP ViT-L/14 336px OpenAI به ،وان رمزگذار بینایی استفاده میکنند که تصاویر چند مقیاسی و چند برش را به کدهای بینایی پردازش میکند.
سپس این نشانهها از طریق یک رابط چندلایه (MLP) به فضای ورودی مدل زبان نمایش داده میشوند و برای کاهش ابعاد جمعآوری میشوند.
جزء مدل زبان فقط یک رمزگشا است، با گزینههایی از سری OLMo گرفته تا سریهای Qwen2 و Mistral که هر کدام قابلیتها و سطوح باز بودن متفاوتی را ارائه میدهند.
استراتژی آموزشی مولمو شامل دو مرحله اصلی است:
- پیش آموزش چند رسانه ای: در طول این مرحله، مدلها برای ایجاد حاشیهنویسی با استفاده از توضیحات تصویری با جزئیات جمعآوریشده جدید ارائهشده توسط حاشیهنویسهای انس، آموزش میبینند. این مجموعه داده با کیفیت بالا که PixMo نام دارد، عاملی حیاتی در عملکرد قوی مولمو است.
- تنظیم دقیق نظارت شده: سپس مدلها با ،یبی متنوع از مجموعه دادهها، از جمله معیارهای استاندارد دانشگاهی و مجموعههای داده جدید ایجاد شده، تنظیم میشوند که مدلها را قادر میسازد تا وظایف پیچیده دنیای واقعی مانند خواندن سند، استدلال بصری و حتی اشاره، را انجام دهند.
برخلاف بسیاری از مدلهای معاصر، مولمو بر یادگیری تقویتی از بازخورد انس، (RLHF) تکیه نمیکند، و در عوض بر یک خط لوله آموزشی تنظیمشده تمرکز میکند که تمام پارامترهای مدل را بر اساس وضعیت قبل از آموزش بهروزرس، میکند.
فراتر از معیارهای کلیدی
مدلهای مولمو نتایج شگفتانگیزی را در معیارهای متعدد نشان دادهاند، به ویژه در مقایسه با مدلهای اختصاصی.
به ،وان مثال، Molmo-72B در DocVQA امتیاز 96.3 و در TextVQA امتیاز 85.5 را به دست آورد که در این دسته از Gemini 1.5 Pro و Claude 3.5 Sonnet پیشی گرفت. همچنین از GPT-4o در AI2D (معیار خود Ai2، خلاصه شده برای “یک نمودار ارزش یک دوجین ع،” را دارد، مجموعه داده ای از بیش از 5000 نمودار علوم مدرسه ابتدایی و بیش از 150000 حاشیه نویسی غنی، بهتر عمل کرد.
این مدلها همچنین در کارهای زمینگذاری نوری عالی هستند، با Molmo-72B که بالاترین عملکرد را در RealWorldQA به دست میآورد، و آن را به ویژه برای کاربردهای روباتیک و استدلال چندوجهی پیچیده امیدوارکننده میسازد.
دسترسی باز و نسخه های آینده
Ai2 این مدلها و مجموعه دادهها را در فضای Hugging Face با سازگاری کامل با چارچوبهای هوش مصنوعی محبوب مانند Transformers در دسترس قرار داده است.
این دسترسی باز بخشی از چشم انداز گسترده تر Ai2 برای تقویت نوآوری و همکاری در جامعه هوش مصنوعی است.
طی چند ماه آینده، Ai2 قصد دارد قالبهای اضافی، کدهای آموزشی و نسخه توسعهیافته گزارش فنی خود را منتشر کند تا منابع در دسترس محققان را غنیتر کند.
برای ،، که علاقه مند به بررسی قابلیت های مولمو هستند، یک نسخه نمایشی عمومی و چندین نقطه بازرسی نمونه اکنون از طریق صفحه رسمی مولمو در دسترس است.
معاون روزانه
مطلع باشید! آ،ین اخبار را روزانه در صندوق ورودی خود دریافت کنید
با اشتراک، با شرایط خدمات VentureBeat موافقت می کنید.
با تشکر از شما برای اشتراک. می تو،د خبرنامه های VB بیشتری را در اینجا بیابید.
خطایی رخ داد.
منبع: https://venturebeat.com/ai/ai2s-new-molmo-open-source-ai-models-beat-gpt-4o-claude-on-some-benchmarks/