به خبرنامههای روزانه و هفتگی ما بپیوندید تا آ،ین بهروزرس،ها و محتوای انحصاری را در زمینه پوشش هوش مصنوعی پیشرو در صنعت ما دریافت کنید. او بیشتر یاد می گیرد
دانشمندان غرق در داده ها هستند. با میلیون ها مقاله تحقیقاتی منتشر شده در هر سال، حتی متخصص ترین متخصصان نیز در تلاش هستند تا در مورد آ،ین یافته ها در زمینه خود به روز بمانند.
سیستم هوش مصنوعی جدید که OpenSc،lar نام دارد، وعده بازنویسی قو،ن نحوه دسترسی، ارزیابی و جمعآوری پژوهشگران را به ادبیات علمی میدهد. OpenSc،lar که توسط مؤسسه آلن برای هوش مصنوعی (Ai2) و دانشگاه واشنگتن ایجاد شده است، سیستمهای بازیابی پیشرفته را با یک مدل زب، دقیق ،یب میکند تا پاسخهای جامع و مبتنی بر استناد را به سؤالات تحقیقاتی پیچیده ارائه دهد.
محققان OpenSc،lar در مقاله خود نوشتند: “پیشرفت علمی به توانایی محققان برای ،یب ادبیات رو به رشد بستگی دارد.” اما این توانایی به دلیل حجم انبوه اطلاعات به طور فزاینده ای محدود می شود. آنها استدلال می کنند که OpenSc،lar راهی به جلو ارائه می دهد، راهی که نه تنها به محققان کمک می کند تا در سیل مقالات تحقیقاتی حرکت کنند، بلکه تسلط سیستم های AI اختصاصی مانند GPT-4o را به چالش می کشد.
چگونه مغز AI OpenSc،lar 45 میلیون مقاله تحقیقاتی را در چند ث،ه پردازش می کند
در قلب OpenSc،lar یک مدل زبان تقویتشده برای بازیابی وجود دارد که از ذخیره دادههای بیش از 45 میلیون مقاله دانشگاهی با دسترسی آزاد استفاده میکند. هنگامی که یک محقق سوالی می پرسد، OpenSc،lar فقط پاسخی را از دانش از پیش آموزش دیده ایجاد نمی کند، همانطور که مدل هایی مانند GPT-4o اغلب انجام می دهند. در عوض، به طور فعال مقالات مرتبط را بازیابی می کند، یافته های خود را ،یب می کند، و پاسخی را بر اساس آن منابع تولید می کند.
این توانایی برای ماندن در ادبیات واقعی یک تمایز کلیدی است. در آزمایشهایی که از معیار جدیدی به نام Sc،larQABench استفاده می،د که بهطور خاص برای ارزیابی سیستمهای هوش مصنوعی در سؤالات علمی باز طراحی شده بود، OpenSc،lar سرآمد بود. این سیستم از نظر واقع گرایی و دقت استناد عملکرد برتری را نشان داد، حتی از مدل های بزرگتر مانند GPT-4o نیز بهتر عمل کرد.
یکی از یافتههای وحشتناک به تمایل GPT-4o برای تولید نقل قولهای ساختگی – توهم، به اصطلاح هوش مصنوعی مربوط میشود. هنگامی که وظیفه پاسخگویی به سؤالات تحقیقات زیست پزشکی را بر عهده داشت، GPT-4o در بیش از 90 درصد موارد به مقالاتی اشاره کرد که وجود نداشتند. در مقابل، OpenSc،lar به طور محکم در منابع قابل تایید لنگر باقی مانده است.
پایه گذاری روی اوراق واقعی بازیابی شده کلیدی است. این سیستم از آنچه محققان به ،وان «حلقه استنتاج بازخورد خود» توصیف میکنند استفاده میکند و «بهطور مکرر ،وجی خود را از طریق بازخورد زبان طبیعی، بهبود کیفیت و ادغام سازگاری اطلاعات تکمیلی، اصلاح میکند».
پیامدهای آن برای محققان، سیاست گذاران و رهبران تجاری قابل توجه است. OpenSc،lar می تواند به ابزاری ضروری برای تسریع اکتشافات علمی تبدیل شود و متخصصان را قادر می سازد تا دانش را سریعتر و با اطمینان بیشتر جمع آوری کنند.
درون نبرد دیوید علیه جالوت: آیا هوش مصنوعی منبع باز می تواند با شرکت های بزرگ فناوری رقابت کند؟
شروع OpenSc،lar در زم، اتفاق می افتد که ا،یستم هوش مصنوعی به طور فزاینده ای تحت سلطه سیستم های بسته و اختصاصی است. مدلهایی مانند GPT-4o OpenAI و Claude Anthropic قابلیتهای چشمگیری را ارائه میدهند، اما برای بسیاری از محققان گران، غیرشفاف و غیرقابل دسترس هستند. OpenSc،lar این مدل را با متن باز بودن کاملاً تغییر می دهد.
تیم OpenSc،lar نه تنها کد مدل زبان، بلکه کل خط لوله بازیابی، یک مدل تخصصی 8 میلیارد پارامتری را که برای کارهای علمی دقیق تنظیم شده، و یک فروشگاه داده برای مقالات علمی منتشر کرده است. محققان در پست وبلاگ خود که این سیستم را اعلام ،د، نوشتند: “از نظر ما، این اولین نسخه باز از کل مسیر LM است – از داده ها گرفته تا دستور العمل های آموزشی تا نقاط بازرسی مدل”.
این صراحت فقط یک موضع فلسفی نیست. همچنین یک ویژگی عملی است. اندازه کوچکتر و معماری ساده OpenSc،lar آن را مقرون به صرفه تر از سیستم های اختصاصی می کند. برای مثال، محققان ،ن میزنند که OpenSc،lar-8B 100 برابر ارزانتر از PaperQA2 است، یک سیستم همزمان ساخته شده بر روی GPT-4o.
این مقرون به صرفه بودن میتواند دسترسی به ابزارهای قدرتمند هوش مصنوعی را برای مؤسسات کوچکتر، آزمایشگاههای دارای بودجه کم و محققان در کشورهای در حال توسعه دموکراتیک کند.
با این حال، OpenSc،lar بدون محدودیت نیست. ذخیره دادههای آن محدود به مقالات با دسترسی آزاد است، به استثنای تحقیقات ممنوعهای که در برخی زمینهها تسلط دارند. اگرچه این محدودیت از نظر قانونی ضروری است، اما به این م،ی است که سیستم ممکن است نتایج مهمی را در زمینه هایی مانند پزشکی یا مهندسی از دست بدهد. محققان این شکاف را تصدیق می کنند و امیدوارند که تکرارهای آینده بتوانند به طور مسئولانه محتوای دسترسی بسته را در خود جای دهند.
روش علمی جدید: زم، که هوش مصنوعی شریک تحقیقاتی شما می شود
پروژه OpenSc،lar سوالات مهمی در مورد نقش هوش مصنوعی در علم مطرح می کند. اگرچه توانایی این سیستم در ،یب ادبیات چشمگیر است، اما خطاناپذیر نیست. در رتبهبندیهای متخصص، پاسخهای OpenSc،lar بر پاسخهای نوشته شده توسط انسان در ۷۰ درصد موارد ترجیح داده میشوند، اما ۳۰ درصد باقیمانده مواردی را برجسته میکنند که مدل ش،ت خورده است – مانند عدم استناد به تحقیقات بنیادی یا انتخاب مطالعات کمتر نماینده.
این محدودیتها بر حقیقت گستردهتری تأکید میکنند: اینکه ابزارهای هوش مصنوعی مانند OpenSc،lar برای ارتقای تخصص انسانها طراحی شدهاند، نه جایگزینی آن. این سیستم برای کمک به محققان از طریق رسیدگی به کار وقت گیر تدوین ادبیات طراحی شده است و به آنها اجازه می دهد تا بر تفسیر و توسعه دانش تمرکز کنند.
ممکن است منتقدان به این نکته اشاره کنند که اتکای OpenSc،lar به مقالات تحقیقاتی با دسترسی آزاد، کاربرد مستقیم آن را در زمینههای پرمخاطره مانند داروسازی محدود میکند، جایی که بسیاری از تحقیقات در پشت دیوار قفل شده است. برخی دیگر استدلال می کنند که عملکرد سیستم، اگرچه قدرتمند است، اما همچنان به شدت به کیفیت داده های بازیابی شده بستگی دارد. اگر مرحله بازیابی با ش،ت مواجه شود، کل خط لوله در معرض خطر تولید نتایج غیربهینه است.
اما حتی با وجود محدودیتهایش، OpenSc،lar نقطه عطفی در مح،ات علمی است. در حالی که مدلهای قبلی هوش مصنوعی توانایی خود را برای درگیر شدن در مکالمه تحسین کردهاند، OpenSc،lar چیز اساسیتری را نشان میدهد: توانایی پردازش، درک، و ،یب ادبیات علمی با دقت تقریباً انس،.
اعداد داستان قانع کننده ای را بیان می کنند. مدل OpenSc،lar با 8 میلیارد پارامتر عملکرد بهتری از GPT-4o دارد در حالی که اندازه آن کوچکتر است. در مواردی که سایر سیستمهای هوش مصنوعی در 90 درصد مواقع از کار میافتند، با کارشناسان انس، مطابقت دارد. شاید مهم ترین این باشد که کارشناسان پاسخ های او را به پاسخ هایی که توسط همتایانشان نوشته شده ترجیح می دهند.
این پیشرفتها نشان میدهد که ما وارد دوره جدیدی از تحقیقات مبتنی بر هوش مصنوعی میشویم، جایی که گلوگاه پیشرفت علمی دیگر توانایی ما برای پردازش دانش موجود نیست، بلکه توانایی ما برای پرسیدن سؤالات درست است.
محققان همه چیز را منتشر کردهاند – کد، مدلها، دادهها و ابزارها – شرط میبندند که باز بودن بیشتر از نگه داشتن دستاوردهایشان پشت درهای بسته، پیشرفت را تسریع میکند.
با انجام این کار، آنها به یکی از مهمترین سوالات در توسعه هوش مصنوعی پاسخ دادند: آیا راهحلهای منبع باز میتوانند با جعبههای سیاه شرکتهای بزرگ فناوری رقابت کنند؟
به نظر می رسد که پاسخ در میان 45 میلیون مقاله پنهان است.
VB Daily
مطلع باشید! آ،ین اخبار را روزانه در صندوق ورودی خود دریافت کنید
با اشتراک، با شرایط خدمات VentureBeat موافقت می کنید.
با تشکر برای اشتراک. خبرنامه های بیشتر VB را اینجا ببینید.
خطایی رخ داد.
منبع: https://venturebeat.com/ai/opensc،lar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/