مدل‌های منبع باز جدید Molmo AI Ai2 عملکرد بهتری از GPT-4o، Claude دارند

مدل‌های منبع باز جدید Molmo AI Ai2 عملکرد بهتری از GPT-4o، Claude دارند

به خبرنامه‌های روزانه و هفتگی ما بپیوندید تا آ،ین به‌روزرس،‌ها و محتوای انحصاری را در زمینه پوشش هوش مصنوعی پیشرو در صنعت ما دریافت کنید. بیشتر بد،د


موسسه آلن برای هوش مصنوعی (Ai2) امروز مولمو را معرفی کرد، یک خانواده منبع باز از مدل های پیشرفته هوش مصنوعی چندوجهی که از رقبای اصلی مانند GPT-4o OpenAI، غزل کلود 3.5 Anthropic و Gemini 1.5 گوگل در بسیاری از استانداردهای شخص ثالث بهتر عمل می کند.

بنابراین، مدل‌ها می‌توانند تصاویر بارگذاری شده توسط کاربران را مشابه مدل‌های مؤسسات اختصاصی پیشرو بپذیرند و آن‌ها را تحلیل کنند.

با این حال، Ai2 همچنین در یک پست در

Ai2 می‌گوید این نسخه بر تعهد آن به تحقیقات باز با ارائه مدل‌های با کارایی بالا، کامل با وزن و داده‌های باز، برای جامعه گسترده‌تر – و البته، شرکت‌هایی که به دنبال راه‌حل‌هایی هستند که می‌توانند به طور کامل مالک، کنترل و سفارشی‌سازی شوند، تأکید می‌کند.

این به دنبال انتشار دو هفته پیش Ai2 یک مدل باز دیگر به نام OLMoE است که «،یبی از متخصصان» یا مجموعه‌ای از مدل‌های کوچکتر طراحی شده برای مقرون‌به‌صرفه بودن است.

پر ، شکاف بین هوش مصنوعی باز و هوش مصنوعی اختصاصی

مولمو از چهار مدل اصلی با اندازه پارامترها و قابلیت های مختلف تشکیل شده است:

  1. Molmo-72B (72 میلیارد پارامتر یا تنظیمات – مدل پیشرو، بر اساس مدل منبع باز Alibaba Cloud Qwen2-72B)
  2. Molmo-7B-D (“مدل آزمایشی” بر اساس مدل Qwen2-7B علی بابا)
  3. Molmo-7B-O (بر اساس مدل OLMo-7B Ai2)
  4. MolmoE-1B (بر اساس ،یب تخصصی LLM OLMoE-1B-7B، که Ai2 می گوید: “تقریباً با عملکرد GPT-4V در معیارهای ترجیحی آکادمیک و کاربر مطابقت دارد.”)

این مدل‌ها عملکرد بالایی را در طیفی از معیارهای شخص ثالث به دست می‌آورند و از بسیاری از جایگزین‌های اختصاصی بهتر عمل می‌کنند. همه آنها تحت مجوزهای مجاز Apache 2.0 در دسترس هستند و تقریباً هر نوع استفاده را برای تحقیق و بازاریابی (به ،وان مثال، در سطح سازم،) امکان پذیر می کنند.

قابل ذکر است که Molmo-72B در ارزیابی‌های آکادمیک پیشتاز است، با ،ب امتیازات برتر در 11 معیار کلیدی و رتبه دوم در اولویت‌های کاربر، که بسیار عقب‌تر از GPT-4o است.

Vaibhav Srivastav، مهندس ارشد توسعه یادگیری ماشین در شرکت م،ن کد هوش مصنوعی Hugging Face، در مورد انتشار در X اظهار نظر کرد و تاکید کرد که Molmo جایگزین فوق‌العاده‌ای برای سیستم‌های بسته ارائه می‌کند و استاندارد جدیدی برای هوش مصنوعی چندوجهی باز ایجاد می‌کند.

مولمو توسط @Allen_A – مدل زبان متن باز SoTA Multimodal (Vision)، برتر از Claude 3.5 Sonnet و GPT4V و قابل مقایسه با GPT4o؟

آنها چهار ایست بازرسی معمولی صادر کرده اند:

1. MolmoE-1B، مخلوطی از فرم متخصص با 1B (فعال) و 7B (کل)
2. Molmo-7B-O، فرم 7B بازتر است
3.… pic.twitter.com/9hpARh0GYT

— Vaibhav (VB) Srivastav (@reach_vb) 25 سپتامبر 2024

به‌علاوه، تد شیائو، محقق رباتیک Google DeepMind، گنجاندن داده‌های سیگنال در مولمو را ستایش کرده است، که به نظر او تغییری اساسی در زمینه بصری در رباتیک است.

مولمو یک نسخه بسیار هیجان انگیز از یک مدل پایه چندوجهی است، به ویژه برای روباتیک. تمرکز بر داده‌های جهت‌یابی، آن را به اولین مدل VLM باز بهینه‌سازی شده برای زمین‌گذاری نوری تبدیل می‌کند – و شما می‌تو،د آن را به وضوح با عملکرد شگفت‌انگیز در RealworldQA یا تحقق روباتیک OOD مشاهده کنید! https://t.co/F2xRCzogcg pic.twitter.com/VHtu9hT2r9

– تد شیائو (@xiao_ted) 25 سپتامبر 2024

این توانایی به Molmo اجازه می دهد تا توضیحات بصری و تعامل موثرتری با محیط های فیزیکی ارائه دهد، ویژگی که ا،ر مدل های چند رسانه ای دیگر در حال حاضر فاقد آن هستند.

این مدل‌ها نه تنها عملکرد بالایی دارند، بلکه کاملاً باز هستند و به محققان و توسعه‌دهندگان اجازه می‌دهند به فناوری‌های پیشرفته دسترسی داشته باشند و بر اساس آن‌ها کار کنند.

مدل پیشرفته در معماری و رویکرد آموزشی

معماری مولمو برای حدا،ر کارایی و کارایی طراحی شده است. همه مدل‌ها از مدل CLIP ViT-L/14 336px OpenAI به ،وان رمزگذار بینایی استفاده می‌کنند که تصاویر چند مقیاسی و چند برش را به کدهای بینایی پردازش می‌کند.

سپس این نشانه‌ها از طریق یک رابط چندلایه (MLP) به فضای ورودی مدل زبان نمایش داده می‌شوند و برای کاهش ابعاد جمع‌آوری می‌شوند.

جزء مدل زبان فقط یک رمزگشا است، با گزینه‌هایی از سری OLMo گرفته تا سری‌های Qwen2 و Mistral که هر کدام قابلیت‌ها و سطوح باز بودن متفاوتی را ارائه می‌دهند.

استراتژی آموزشی مولمو شامل دو مرحله اصلی است:

  1. پیش آموزش چند رسانه ای: در طول این مرحله، مدل‌ها برای ایجاد حاشیه‌نویسی با استفاده از توضیحات تصویری با جزئیات جمع‌آوری‌شده جدید ارائه‌شده توسط حاشیه‌نویس‌های انس، آموزش می‌بینند. این مجموعه داده با کیفیت بالا که PixMo نام دارد، عاملی حیاتی در عملکرد قوی مولمو است.
  2. تنظیم دقیق نظارت شده: سپس مدل‌ها با ،یبی متنوع از مجموعه داده‌ها، از جمله معیارهای استاندارد دانشگاهی و مجموعه‌های داده جدید ایجاد شده، تنظیم می‌شوند که مدل‌ها را قادر می‌سازد تا وظایف پیچیده دنیای واقعی مانند خواندن سند، استدلال بصری و حتی اشاره‌، را انجام دهند.

برخلاف بسیاری از مدل‌های معاصر، مولمو بر یادگیری تقویتی از بازخورد انس، (RLHF) تکیه نمی‌کند، و در عوض بر یک خط لوله آموزشی تنظیم‌شده تمرکز می‌کند که تمام پارامترهای مدل را بر اساس وضعیت قبل از آموزش به‌روزرس، می‌کند.

فراتر از معیارهای کلیدی

مدل‌های مولمو نتایج شگفت‌انگیزی را در معیارهای متعدد نشان داده‌اند، به ویژه در مقایسه با مدل‌های اختصاصی.

به ،وان مثال، Molmo-72B در DocVQA امتیاز 96.3 و در TextVQA امتیاز 85.5 را به دست آورد که در این دسته از Gemini 1.5 Pro و Claude 3.5 Sonnet پیشی گرفت. همچنین از GPT-4o در AI2D (معیار خود Ai2، خلاصه شده برای “یک نمودار ارزش یک دوجین ع،” را دارد، مجموعه داده ای از بیش از 5000 نمودار علوم مدرسه ابتدایی و بیش از 150000 حاشیه نویسی غنی، بهتر عمل کرد.

این مدل‌ها همچنین در کارهای زمین‌گذاری نوری عالی هستند، با Molmo-72B که بالاترین عملکرد را در RealWorldQA به دست می‌آورد، و آن را به ویژه برای کاربردهای روباتیک و استدلال چندوجهی پیچیده امیدوارکننده می‌سازد.

دسترسی باز و نسخه های آینده

Ai2 این مدل‌ها و مجموعه داده‌ها را در فضای Hugging Face با سازگاری کامل با چارچوب‌های هوش مصنوعی محبوب مانند Transformers در دسترس قرار داده است.

این دسترسی باز بخشی از چشم انداز گسترده تر Ai2 برای تقویت نوآوری و همکاری در جامعه هوش مصنوعی است.

طی چند ماه آینده، Ai2 قصد دارد قالب‌های اضافی، کدهای آموزشی و نسخه توسعه‌یافته گزارش فنی خود را منتشر کند تا منابع در دسترس محققان را غنی‌تر کند.

برای ،، که علاقه مند به بررسی قابلیت های مولمو هستند، یک نسخه نمایشی عمومی و چندین نقطه بازرسی نمونه اکنون از طریق صفحه رسمی مولمو در دسترس است.

معاون روزانه

مطلع باشید! آ،ین اخبار را روزانه در صندوق ورودی خود دریافت کنید

با اشتراک، با شرایط خدمات VentureBeat موافقت می کنید.

با تشکر از شما برای اشتراک. می تو،د خبرنامه های VB بیشتری را در اینجا بیابید.

خطایی رخ داد.


منبع: https://venturebeat.com/ai/ai2s-new-molmo-open-source-ai-models-beat-gpt-4o-claude-on-some-benchmarks/