میسترال ای‌آی - ویکی‌پدیا، دانشنامهٔ آزاد

میسترال اِی‌آی
نوعخصوصی
صنعتهوش مصنوعی
بنا نهاده۲۸ آوریل ۲۰۲۳
بنیانگذاران
دفتر مرکزیپاریس، فرانسه
محصولات
  • Mixtral 8x22B
  • Mixtral 8x7B
  • Mistral 7B
  • Mistral Large
  • Mistral Medium
  • Mistral Small
وبگاه

شرکت هوش مصنوعی میسترال (به انگلیسی: Mistral AI) یک شرکت فرانسوی است که محصولات هوش مصنوعی (اختصاری AI) را تولید و به فروش می‌رساند. این شرکت در آوریل ۲۰۲۳ به‌دست کارمندان قبلی متا پلتفرمز و گوگل دیپ‌مایند تأسیس شد[۱] و در اکتبر ۲۰۲۳ توانست مبلغی معادل ۳۸۵ میلیون یورو سرمایه جذب کند[۲] و در دسامبر ۲۰۲۳ به ارزش بیش از ۲ میلیارد دلار دست پیدا کند.[۳][۴][۵]

این شرکت با استناد به اهمیت اساسی نرم‌افزار منبع باز و در پاسخ به مدل‌های اختصاصی، به تولید مدل‌های زبان بزرگ منبع باز می‌پردازد.[۶][۷]

از مارس ۲۰۲۴ تاکنون، این شرکت دو مدل در قالب وزن باز[۸] و سه مدل دیگر کوچک، متوسط و بزرگ، که فقط از طریق API در دسترس هستند را منتشر کرده است.[۹][۱۰]

تاریخچه

[ویرایش]

میسترال[en] نام باد سرد شدیدی است که از شمال‌غرب فرانسه به سمت خلیج شیر در جنوب فرانسه و شمال دریای مدیترانه می‌وزد و نام این شرکت از آن گرفته شده است.[۱۱]

میسترال اِی‌آی، در آوریل ۲۰۲۳ توسط سه فرانسوی با نام‌های آرتور مانش، گیوم لامپل و تیموته لَکقوءَ تأسیس شد. آرتور مانش قبل از تأسیس میسترال اِی‌آی در گوگل دیپ‌مایند که آزمایشگاه هوش مصنوعی گوگل است، و گیوم لامپل و تیموته لَکقوءَ در متا پلتفرمز کار می‌کردند.[۱۲] این بنیانگذاران در دوران دانشجویی در مدرسه پلی‌تکنیک در فرانسه با یکدیگر آشنا شدند.

در ژوئن ۲۰۲۳، این استارت‌آپ اولین جمع‌آوری کمک مالی به مبلغ ۱۰۵ میلیون یورو (۱۱۷ میلیون دلار) را با سرمایه‌گذارانی از جمله صندوق آمریکایی شرکای سرمایه‌گذاری لایت‌اسپید، اریک اشمیت، خاویر نایل و ژی‌سی‌دیکو انجام داد. پس از آن، فایننشال تایمز ارزش این شرکت را ۲۴۰ میلیون یورو (۲۶۷ میلیون دلار) برآورد کرد.

در ۲۷ سپتامبر ۲۰۲۳، این شرکت مدل پردازش زبان خود "Mistral 7B" را تحت مجوز رایگان آپاچی ۲٫۰ در دسترس قرار داد. این مدل دارای ۷ میلیارد پارامتر است که در مقایسه با رقبای خود، مدلی کوچکی به حساب می‌آید.

در ۱۰ دسامبر ۲۰۲۳، میسترال اِی‌آی اعلام کرد که در دومین مرحله افزایش مالی خود، کمک مالی به مبلغ ۳۸۵ میلیون یورو (۴۲۸ میلیون دلار) را جمع‌آوری کرده است. این دور از تأمین مالی به ویژه شامل صندوق کالیفرنیایی اندریسن هوروویتز، بی‌ان‌پی پاریبا و ناشر نرم‌افزار سلزفورس می‌شود.[۱۳]

در ۱۱ دسامبر ۲۰۲۳، این شرکت به لطف ترکیب متخصصان معماری (ساختمان داده کامپیوتری) مدل Mixtral 8x7B را با ۴۶٫۷ میلیارد پارامتر، و تنها با استفاده از ۱۲٫۹ میلیارد پارامتر در هر توکن منتشر کرد. این مدل به ۵ زبان (فرانسوی، اسپانیایی، ایتالیایی، انگلیسی و آلمانی) تسلط دارد و بر اساس آزمایش‌های توسعه‌دهندگان خود، از مدل "LLama 2 70B" متا بهتر عمل می‌کند. یک نسخه آموزش دیده برای پیروی از دستورالعمل‌ها و به نام "Mixtral 8x7B Instruct" نیز ارائه شده است.[۱۴]

در ۲۶ فوریه ۲۰۲۴، مایکروسافت همکاری جدیدی با این شرکت برای گسترش حضور خود در صنعت هوش مصنوعی که به سرعت در حال توسعه است، اعلام کرد. بر اساس این توافق، مدل‌های زبان غنی میسترال در ابر اژر مایکروسافت در دسترس خواهند بود، و در عین حال دستیار مکالمه چند زبانه "Le Chat" به سبک و سیاق چت‌جی‌پی‌تی نیز راه‌اندازی خواهد شد.[۱۵]

در ۱۰ آوریل ۲۰۲۴، این شرکت مدل ترکیب متخصصان با نام Mixtral 8x22B را منتشر کرد که عملکرد بالایی را در معیارهای مختلف در مقایسه با سایر مدل‌های متن باز ارائه می‌دهد.

مدل‌ها

[ویرایش]

مدل‌های وزن باز

[ویرایش]

Mistral 7B

[ویرایش]

Mistral 7B یک مدل زبانی 7.3B پارامتری مبتنی بر معماری ترانسفورماتور است. در ۲۷ سپتامبر ۲۰۲۳ به‌طور رسمی از طریق پیوند مگنت بیت‌تورنت[۱۶] و هاگینگ فیس منتشر شد.[۱۷] این مدل تحت مجوز آپاچی ۲٫۰ منتشر شد. در پست وبلاگ اعلام این موضوع، ادعا شده بود که این مدل در همه معیارهای آزمایش شده بهتر از LLaMA 2 13B عمل می‌کند و در بسیاری از معیارهای آزمایش شده با LLaMA 34B برابری می‌کند.[۱۸]

Mistral 7B از معماری مشابه LLaMA استفاده می‌کند، اما با تغییراتی در مکانیسم توجه. به‌طور خاص از توجه پرس‌وجو تجمیع‌شده (اختصاری GQA)، برای استنتاج سریعتر، و همچین از توجه پنجره کشویی (اختصاری SWA)، برای رسیدگی به دنباله‌های طولانی‌تر، استفاده شده است.

توجه پنجره کشویی (اختصاری SWA) هزینه محاسباتی و نیاز به حافظه را برای دنباله‌های طولانی‌تر کاهش می‌دهد. در توجه پنجره کشویی، هر نشانه فقط می‌تواند به تعداد ثابتی از نشانه‌ها از لایه قبلی در یک «پنجره کشویی» از ۴۰۹۶ توکن، با طول کل زمینه ۳۲۷۶۸ توکن توجه کند. در زمان استنتاج، این امر در دسترس بودن حافظه پنهان را کاهش می‌دهد و منجر به تأخیر بیشتر و توان عملیاتی کمتر می‌شود. برای کاهش این مشکل، Mistral 7B از حافظه نهان بافر متحرک استفاده می‌کند.

Mistral 7B از توجه پرس‌وجو تجمیع‌شده (اختصاری GQA) استفاده می‌کند که نوعی از مکانیسم توجه استاندارد است. به جای محاسبه توجه بر روی همه حالت‌های پنهان، توجه را بر روی گروهی از حالت‌های پنهان محاسبه می‌کند.[۱۹]

پس از آن، هر دو مدل پایه و «دستورالعملی» با تنظیمات اضافه‌تر با هدف پیروی از دستور العمل‌های محاوره ای منتشر شدند. مدل تنظیم‌شده فقط برای اهداف نمایشی در نظر گرفته شده است و به‌طور پیش‌فرض دارای ویژگی‌های نرده‌محافظ یا تعدیل‌سازی نیست.[۲۰]

Mixtral 8x7B

[ویرایش]

در ۹ دسامبر ۲۰۲۳ در روشی بسیار شبیه به اولین مدل این شرکت، مدل Mixtral 8x7B از طریق یک پیوند بیت‌تورنت در توییتر،[۲۱] و دو روز بعد بر روی هاگینگ فیس و همراه با یک پست وبلاگ منتشر شد.[۲۲]

برخلاف مدل قبلی این شرکت، Mixtral 8x7B از معماری ترکیب متخصصان تنک استفاده می‌کند. این مدل دارای ۸ گروه مجزا از «متخصصان» است که در مجموع ۴۶٫۷ میلیارد پارامتر قابل استفاده به مدل می‌دهد.[۲۳][۲۴] هر توکن تنها می‌تواند از 12.9B پارامتر استفاده کند، بنابراین سرعت و هزینه‌ای معادل یک مدل 12.9B پارامتری را ارائه می‌دهد.[۲۵]

آزمایش‌های میسترال اِی‌آی نشان می‌دهد که این مدل در اکثر محک‌زنی‌ها LLaMA 70B و GPT-3.5 را شکست می‌دهد.[۲۶]

در مارس ۲۰۲۴، تحقیقاتی که توسط Patronus AI انجام شد و عملکرد ال‌ال‌امها را در یک آزمون ۱۰۰ سؤالی با دستورهایی برای تولید متن از کتاب‌های محافظت شده تحت قانون حق چاپ ایالات متحده مقایسه کرد، نشان داد که جی‌پی‌تی ۴ شرکت اوپن‌ای‌آی، مدل‌های شرکت میسترال اِی‌آی، LLaMA-2 شرکت متا ای‌آی و Claude2 شرکت آنتروپیک در پاسخ‌های خود به ترتیب ۴۴٪، ۲۲٪، ۱۰٪ و ۸٪ از متون دارای حق چاپ را کلمه به کلمه ایجاد کردند.[۲۷][۲۸]

Mixtral 8x22B

[ویرایش]

مدل Mixtral 8x22B در ۱۰ آوریل ۲۰۲۴، مشابه مدل‌های باز قبلی میسترال و از طریق پیوند بیت‌تورنت در توییتر و بلافاصله پس از آن در Hugging Face منتشر شد.

مدل‌های تنها دارای API

[ویرایش]

برخلاف مدل‌های Mistral 7B, Mixtral 8x7B و Mixtral 8x22B، مدل‌های زیر منبع بسته هستند و فقط از طریق Mistral API در دسترس هستند.[۲۹]

میسترال لارج (بزرگ)

[ویرایش]

میسترال لارج در ۲۶ فوریه ۲۰۲۴ راه اندازی شد و Mistral ادعا می‌کند که پس از جی‌پی‌تی ۴ شرکت اوپن‌ای‌آی در جهان در رتبه دوم قرار دارد.

این مدل به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی و ایتالیایی تسلط کامل دارد و میسترال ادعا می‌کند که هم صرف‌ونحو و هم زمینه فرهنگی را درک می‌کند و قابلیت‌های کدنویسی را نیز فراهم می‌آورد. از اوایل سال ۲۰۲۴، این مدل، پرچمدار شرکت مزبور است.[۳۰] این مدل بر روی سرویس ابری اژر مایکروسافت نیز موجود است.

میسترال مدیوم (متوسط)

[ویرایش]

میسترال مدیوم بر روی زبان‌های انگلیسی، فرانسوی، ایتالیایی، آلمانی، اسپانیایی و زبان‌های برنامه‌نویسی آموزش دیده و امتیاز ۸٫۶ را در محک‌زنی MT-Bench به‌دست آورده است.[۳۱] از نظر عملکرد در معیار LMSys ELO Arena بالاتر از کلود و پایین جی‌پی‌تی ۴ رتبه‌بندی شده است.[۳۲]

از آنجا که میسترال اطلاعات عمومی در مورد میسترال مدیوم منتشر نکرده، تعداد پارامترها و معماری آن ناشناخته است.

میسترال اسمال (کوچک)

[ویرایش]

مانند مدل میسترال لارج، این مدل نیز در ۲۶ فوریه ۲۰۲۴ عرضه شد. با این هدف ساخته شده که یک مدل سبک، کم‌تأخیر، و با عملکرد بهتر از Mixtral 8x7B باشد.[۳۳]

منابع

[ویرایش]
  1. "France's unicorn start-up Mistral AI embodies its artificial intelligence hopes" (به انگلیسی). Le Monde.fr. 2023-12-12. Retrieved 2023-12-16.
  2. Metz, Cade (10 December 2023). "Mistral, French A.I. Start-Up, Is Valued at $2 Billion in Funding Round". The New York Times.
  3. Fink, Charlie. "This Week In XR: Epic Triumphs Over Google, Mistral AI Raises $415 Million, $56.5 Million For Essential AI" (به انگلیسی). Forbes. Retrieved 2023-12-16.
  4. "A French AI start-up may have commenced an AI revolution, silently". Hindustan Times. December 12, 2023.
  5. "French AI start-up Mistral secures €2bn valuation". ft.com Financial Times.
  6. "Buzzy Startup Just Dumps AI Model That Beats GPT-3.5 Into a Torrent Link" (به انگلیسی). Gizmodo. 2023-12-12. Retrieved 2023-12-16.
  7. "Bringing open AI models to the frontier" (به انگلیسی). Mistral AI. 27 September 2023. Retrieved 4 January 2024.
  8. "Open-weight models and Mistral AI Large Language Models" (به انگلیسی). docs.mistral.ai. Retrieved 2024-01-04.
  9. "Endpoints and Mistral AI Large Language Models" (به انگلیسی). docs.mistral.ai.
  10. "Endpoints and benchmarks | Mistral AI Large Language Models". docs.mistral.ai (به انگلیسی). Retrieved 2024-03-06.
  11. Journal, Sam Schechner | Photographs by Edouard Jacquinet for The Wall Street. "The 9-Month-Old AI Startup Challenging Silicon Valley's Giants". WSJ (به انگلیسی). Retrieved 2024-03-31.
  12. "France's unicorn start-up Mistral AI embodies its artificial intelligence hopes". Le Monde.fr. 12 December 2023.
  13. "Mistral lève 385 M€ et devient une licorne française - le Monde Informatique". 11 December 2023.
  14. "Mixtral of experts". mistral.ai (به انگلیسی). 2023-12-11. Retrieved 2024-01-04.
  15. Bableshwar (2024-02-26). "Mistral Large, Mistral AI's flagship LLM, debuts on Azure AI Models-as-a-Service" (به انگلیسی). techcommunity.microsoft.com. Retrieved 2024-02-26.
  16. Goldman, Sharon (2023-12-08). "Mistral AI bucks release trend by dropping torrent link to new open source LLM". VentureBeat (به انگلیسی). Retrieved 2024-01-04.
  17. Coldewey, Devin (27 September 2023). "Mistral AI makes its first large language model free for everyone". TechCrunch. Retrieved 4 January 2024.
  18. "Mistral 7B". mistral.ai (به انگلیسی). Mistral AI. 27 September 2023. Retrieved 4 January 2024.
  19. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
  20. "Mistral 7B". mistral.ai (به انگلیسی). Mistral AI. 27 September 2023. Retrieved 4 January 2024.
  21. "Buzzy Startup Just Dumps AI Model That Beats GPT-3.5 Into a Torrent Link" (به انگلیسی). Gizmodo. 2023-12-12. Retrieved 2023-12-16.
  22. "Mixtral of experts". mistral.ai (به انگلیسی). 2023-12-11. Retrieved 2024-01-04.
  23. "Mixture of Experts Explained". huggingface.co. Retrieved 2024-01-04.
  24. Marie, Benjamin (2023-12-15). "Mixtral-8x7B: Understanding and Running the Sparse Mixture of Experts". Medium (به انگلیسی). Retrieved 2024-01-04.
  25. "Mixtral of experts". mistral.ai (به انگلیسی). 2023-12-11. Retrieved 2024-01-04.
  26. Franzen, Carl (2023-12-11). "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance". VentureBeat (به انگلیسی). Retrieved 2024-01-04.
  27. Field, Hayden (March 6, 2024). "Researchers tested leading AI models for copyright infringement using popular books, and GPT-4 performed worst". CNBC. Retrieved March 6, 2024.
  28. "Introducing CopyrightCatcher, the first Copyright Detection API for LLMs". Patronus AI. March 6, 2024. Retrieved March 6, 2024.
  29. "Pricing and rate limits | Mistral AI Large Language Models". docs.mistral.ai (به انگلیسی). Retrieved 2024-01-22.
  30. AI, Mistral (2024-02-26). "Au Large". mistral.ai (به انگلیسی). Retrieved 2024-03-06.
  31. AI, Mistral (2023-12-11). "La plateforme". mistral.ai (به انگلیسی). Retrieved 2024-01-22.
  32. "LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys". huggingface.co. Retrieved 2024-01-22.
  33. AI, Mistral (2024-02-26). "Au Large". mistral.ai (به انگلیسی). Retrieved 2024-03-06.