میسترال ایآی - ویکیپدیا، دانشنامهٔ آزاد
نوع | خصوصی |
---|---|
صنعت | هوش مصنوعی |
بنا نهاده | ۲۸ آوریل ۲۰۲۳ |
بنیانگذاران |
|
دفتر مرکزی | پاریس، فرانسه |
محصولات |
|
وبگاه |
شرکت هوش مصنوعی میسترال (به انگلیسی: Mistral AI) یک شرکت فرانسوی است که محصولات هوش مصنوعی (اختصاری AI) را تولید و به فروش میرساند. این شرکت در آوریل ۲۰۲۳ بهدست کارمندان قبلی متا پلتفرمز و گوگل دیپمایند تأسیس شد[۱] و در اکتبر ۲۰۲۳ توانست مبلغی معادل ۳۸۵ میلیون یورو سرمایه جذب کند[۲] و در دسامبر ۲۰۲۳ به ارزش بیش از ۲ میلیارد دلار دست پیدا کند.[۳][۴][۵]
این شرکت با استناد به اهمیت اساسی نرمافزار منبع باز و در پاسخ به مدلهای اختصاصی، به تولید مدلهای زبان بزرگ منبع باز میپردازد.[۶][۷]
از مارس ۲۰۲۴ تاکنون، این شرکت دو مدل در قالب وزن باز[۸] و سه مدل دیگر کوچک، متوسط و بزرگ، که فقط از طریق API در دسترس هستند را منتشر کرده است.[۹][۱۰]
تاریخچه
[ویرایش]میسترال[en] نام باد سرد شدیدی است که از شمالغرب فرانسه به سمت خلیج شیر در جنوب فرانسه و شمال دریای مدیترانه میوزد و نام این شرکت از آن گرفته شده است.[۱۱]
میسترال اِیآی، در آوریل ۲۰۲۳ توسط سه فرانسوی با نامهای آرتور مانش، گیوم لامپل و تیموته لَکقوءَ تأسیس شد. آرتور مانش قبل از تأسیس میسترال اِیآی در گوگل دیپمایند که آزمایشگاه هوش مصنوعی گوگل است، و گیوم لامپل و تیموته لَکقوءَ در متا پلتفرمز کار میکردند.[۱۲] این بنیانگذاران در دوران دانشجویی در مدرسه پلیتکنیک در فرانسه با یکدیگر آشنا شدند.
در ژوئن ۲۰۲۳، این استارتآپ اولین جمعآوری کمک مالی به مبلغ ۱۰۵ میلیون یورو (۱۱۷ میلیون دلار) را با سرمایهگذارانی از جمله صندوق آمریکایی شرکای سرمایهگذاری لایتاسپید، اریک اشمیت، خاویر نایل و ژیسیدیکو انجام داد. پس از آن، فایننشال تایمز ارزش این شرکت را ۲۴۰ میلیون یورو (۲۶۷ میلیون دلار) برآورد کرد.
در ۲۷ سپتامبر ۲۰۲۳، این شرکت مدل پردازش زبان خود "Mistral 7B" را تحت مجوز رایگان آپاچی ۲٫۰ در دسترس قرار داد. این مدل دارای ۷ میلیارد پارامتر است که در مقایسه با رقبای خود، مدلی کوچکی به حساب میآید.
در ۱۰ دسامبر ۲۰۲۳، میسترال اِیآی اعلام کرد که در دومین مرحله افزایش مالی خود، کمک مالی به مبلغ ۳۸۵ میلیون یورو (۴۲۸ میلیون دلار) را جمعآوری کرده است. این دور از تأمین مالی به ویژه شامل صندوق کالیفرنیایی اندریسن هوروویتز، بیانپی پاریبا و ناشر نرمافزار سلزفورس میشود.[۱۳]
در ۱۱ دسامبر ۲۰۲۳، این شرکت به لطف ترکیب متخصصان معماری (ساختمان داده کامپیوتری) مدل Mixtral 8x7B را با ۴۶٫۷ میلیارد پارامتر، و تنها با استفاده از ۱۲٫۹ میلیارد پارامتر در هر توکن منتشر کرد. این مدل به ۵ زبان (فرانسوی، اسپانیایی، ایتالیایی، انگلیسی و آلمانی) تسلط دارد و بر اساس آزمایشهای توسعهدهندگان خود، از مدل "LLama 2 70B" متا بهتر عمل میکند. یک نسخه آموزش دیده برای پیروی از دستورالعملها و به نام "Mixtral 8x7B Instruct" نیز ارائه شده است.[۱۴]
در ۲۶ فوریه ۲۰۲۴، مایکروسافت همکاری جدیدی با این شرکت برای گسترش حضور خود در صنعت هوش مصنوعی که به سرعت در حال توسعه است، اعلام کرد. بر اساس این توافق، مدلهای زبان غنی میسترال در ابر اژر مایکروسافت در دسترس خواهند بود، و در عین حال دستیار مکالمه چند زبانه "Le Chat" به سبک و سیاق چتجیپیتی نیز راهاندازی خواهد شد.[۱۵]
در ۱۰ آوریل ۲۰۲۴، این شرکت مدل ترکیب متخصصان با نام Mixtral 8x22B را منتشر کرد که عملکرد بالایی را در معیارهای مختلف در مقایسه با سایر مدلهای متن باز ارائه میدهد.
مدلها
[ویرایش]مدلهای وزن باز
[ویرایش]Mistral 7B
[ویرایش]Mistral 7B یک مدل زبانی 7.3B پارامتری مبتنی بر معماری ترانسفورماتور است. در ۲۷ سپتامبر ۲۰۲۳ بهطور رسمی از طریق پیوند مگنت بیتتورنت[۱۶] و هاگینگ فیس منتشر شد.[۱۷] این مدل تحت مجوز آپاچی ۲٫۰ منتشر شد. در پست وبلاگ اعلام این موضوع، ادعا شده بود که این مدل در همه معیارهای آزمایش شده بهتر از LLaMA 2 13B عمل میکند و در بسیاری از معیارهای آزمایش شده با LLaMA 34B برابری میکند.[۱۸]
Mistral 7B از معماری مشابه LLaMA استفاده میکند، اما با تغییراتی در مکانیسم توجه. بهطور خاص از توجه پرسوجو تجمیعشده (اختصاری GQA)، برای استنتاج سریعتر، و همچین از توجه پنجره کشویی (اختصاری SWA)، برای رسیدگی به دنبالههای طولانیتر، استفاده شده است.
توجه پنجره کشویی (اختصاری SWA) هزینه محاسباتی و نیاز به حافظه را برای دنبالههای طولانیتر کاهش میدهد. در توجه پنجره کشویی، هر نشانه فقط میتواند به تعداد ثابتی از نشانهها از لایه قبلی در یک «پنجره کشویی» از ۴۰۹۶ توکن، با طول کل زمینه ۳۲۷۶۸ توکن توجه کند. در زمان استنتاج، این امر در دسترس بودن حافظه پنهان را کاهش میدهد و منجر به تأخیر بیشتر و توان عملیاتی کمتر میشود. برای کاهش این مشکل، Mistral 7B از حافظه نهان بافر متحرک استفاده میکند.
Mistral 7B از توجه پرسوجو تجمیعشده (اختصاری GQA) استفاده میکند که نوعی از مکانیسم توجه استاندارد است. به جای محاسبه توجه بر روی همه حالتهای پنهان، توجه را بر روی گروهی از حالتهای پنهان محاسبه میکند.[۱۹]
پس از آن، هر دو مدل پایه و «دستورالعملی» با تنظیمات اضافهتر با هدف پیروی از دستور العملهای محاوره ای منتشر شدند. مدل تنظیمشده فقط برای اهداف نمایشی در نظر گرفته شده است و بهطور پیشفرض دارای ویژگیهای نردهمحافظ یا تعدیلسازی نیست.[۲۰]
Mixtral 8x7B
[ویرایش]در ۹ دسامبر ۲۰۲۳ در روشی بسیار شبیه به اولین مدل این شرکت، مدل Mixtral 8x7B از طریق یک پیوند بیتتورنت در توییتر،[۲۱] و دو روز بعد بر روی هاگینگ فیس و همراه با یک پست وبلاگ منتشر شد.[۲۲]
برخلاف مدل قبلی این شرکت، Mixtral 8x7B از معماری ترکیب متخصصان تنک استفاده میکند. این مدل دارای ۸ گروه مجزا از «متخصصان» است که در مجموع ۴۶٫۷ میلیارد پارامتر قابل استفاده به مدل میدهد.[۲۳][۲۴] هر توکن تنها میتواند از 12.9B پارامتر استفاده کند، بنابراین سرعت و هزینهای معادل یک مدل 12.9B پارامتری را ارائه میدهد.[۲۵]
آزمایشهای میسترال اِیآی نشان میدهد که این مدل در اکثر محکزنیها LLaMA 70B و GPT-3.5 را شکست میدهد.[۲۶]
در مارس ۲۰۲۴، تحقیقاتی که توسط Patronus AI انجام شد و عملکرد الالامها را در یک آزمون ۱۰۰ سؤالی با دستورهایی برای تولید متن از کتابهای محافظت شده تحت قانون حق چاپ ایالات متحده مقایسه کرد، نشان داد که جیپیتی ۴ شرکت اوپنایآی، مدلهای شرکت میسترال اِیآی، LLaMA-2 شرکت متا ایآی و Claude2 شرکت آنتروپیک در پاسخهای خود به ترتیب ۴۴٪، ۲۲٪، ۱۰٪ و ۸٪ از متون دارای حق چاپ را کلمه به کلمه ایجاد کردند.[۲۷][۲۸]
Mixtral 8x22B
[ویرایش]مدل Mixtral 8x22B در ۱۰ آوریل ۲۰۲۴، مشابه مدلهای باز قبلی میسترال و از طریق پیوند بیتتورنت در توییتر و بلافاصله پس از آن در Hugging Face منتشر شد.
مدلهای تنها دارای API
[ویرایش]برخلاف مدلهای Mistral 7B, Mixtral 8x7B و Mixtral 8x22B، مدلهای زیر منبع بسته هستند و فقط از طریق Mistral API در دسترس هستند.[۲۹]
میسترال لارج (بزرگ)
[ویرایش]میسترال لارج در ۲۶ فوریه ۲۰۲۴ راه اندازی شد و Mistral ادعا میکند که پس از جیپیتی ۴ شرکت اوپنایآی در جهان در رتبه دوم قرار دارد.
این مدل به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی و ایتالیایی تسلط کامل دارد و میسترال ادعا میکند که هم صرفونحو و هم زمینه فرهنگی را درک میکند و قابلیتهای کدنویسی را نیز فراهم میآورد. از اوایل سال ۲۰۲۴، این مدل، پرچمدار شرکت مزبور است.[۳۰] این مدل بر روی سرویس ابری اژر مایکروسافت نیز موجود است.
میسترال مدیوم (متوسط)
[ویرایش]میسترال مدیوم بر روی زبانهای انگلیسی، فرانسوی، ایتالیایی، آلمانی، اسپانیایی و زبانهای برنامهنویسی آموزش دیده و امتیاز ۸٫۶ را در محکزنی MT-Bench بهدست آورده است.[۳۱] از نظر عملکرد در معیار LMSys ELO Arena بالاتر از کلود و پایین جیپیتی ۴ رتبهبندی شده است.[۳۲]
از آنجا که میسترال اطلاعات عمومی در مورد میسترال مدیوم منتشر نکرده، تعداد پارامترها و معماری آن ناشناخته است.
میسترال اسمال (کوچک)
[ویرایش]مانند مدل میسترال لارج، این مدل نیز در ۲۶ فوریه ۲۰۲۴ عرضه شد. با این هدف ساخته شده که یک مدل سبک، کمتأخیر، و با عملکرد بهتر از Mixtral 8x7B باشد.[۳۳]
منابع
[ویرایش]- ↑ "France's unicorn start-up Mistral AI embodies its artificial intelligence hopes" (به انگلیسی). Le Monde.fr. 2023-12-12. Retrieved 2023-12-16.
- ↑ Metz, Cade (10 December 2023). "Mistral, French A.I. Start-Up, Is Valued at $2 Billion in Funding Round". The New York Times.
- ↑ Fink, Charlie. "This Week In XR: Epic Triumphs Over Google, Mistral AI Raises $415 Million, $56.5 Million For Essential AI" (به انگلیسی). Forbes. Retrieved 2023-12-16.
- ↑ "A French AI start-up may have commenced an AI revolution, silently". Hindustan Times. December 12, 2023.
- ↑ "French AI start-up Mistral secures €2bn valuation". ft.com Financial Times.
- ↑ "Buzzy Startup Just Dumps AI Model That Beats GPT-3.5 Into a Torrent Link" (به انگلیسی). Gizmodo. 2023-12-12. Retrieved 2023-12-16.
- ↑ "Bringing open AI models to the frontier" (به انگلیسی). Mistral AI. 27 September 2023. Retrieved 4 January 2024.
- ↑ "Open-weight models and Mistral AI Large Language Models" (به انگلیسی). docs.mistral.ai. Retrieved 2024-01-04.
- ↑ "Endpoints and Mistral AI Large Language Models" (به انگلیسی). docs.mistral.ai.
- ↑ "Endpoints and benchmarks | Mistral AI Large Language Models". docs.mistral.ai (به انگلیسی). Retrieved 2024-03-06.
- ↑ Journal, Sam Schechner | Photographs by Edouard Jacquinet for The Wall Street. "The 9-Month-Old AI Startup Challenging Silicon Valley's Giants". WSJ (به انگلیسی). Retrieved 2024-03-31.
- ↑ "France's unicorn start-up Mistral AI embodies its artificial intelligence hopes". Le Monde.fr. 12 December 2023.
- ↑ "Mistral lève 385 M€ et devient une licorne française - le Monde Informatique". 11 December 2023.
- ↑ "Mixtral of experts". mistral.ai (به انگلیسی). 2023-12-11. Retrieved 2024-01-04.
- ↑ Bableshwar (2024-02-26). "Mistral Large, Mistral AI's flagship LLM, debuts on Azure AI Models-as-a-Service" (به انگلیسی). techcommunity.microsoft.com. Retrieved 2024-02-26.
- ↑ Goldman, Sharon (2023-12-08). "Mistral AI bucks release trend by dropping torrent link to new open source LLM". VentureBeat (به انگلیسی). Retrieved 2024-01-04.
- ↑ Coldewey, Devin (27 September 2023). "Mistral AI makes its first large language model free for everyone". TechCrunch. Retrieved 4 January 2024.
- ↑ "Mistral 7B". mistral.ai (به انگلیسی). Mistral AI. 27 September 2023. Retrieved 4 January 2024.
- ↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
- ↑ "Mistral 7B". mistral.ai (به انگلیسی). Mistral AI. 27 September 2023. Retrieved 4 January 2024.
- ↑ "Buzzy Startup Just Dumps AI Model That Beats GPT-3.5 Into a Torrent Link" (به انگلیسی). Gizmodo. 2023-12-12. Retrieved 2023-12-16.
- ↑ "Mixtral of experts". mistral.ai (به انگلیسی). 2023-12-11. Retrieved 2024-01-04.
- ↑ "Mixture of Experts Explained". huggingface.co. Retrieved 2024-01-04.
- ↑ Marie, Benjamin (2023-12-15). "Mixtral-8x7B: Understanding and Running the Sparse Mixture of Experts". Medium (به انگلیسی). Retrieved 2024-01-04.
- ↑ "Mixtral of experts". mistral.ai (به انگلیسی). 2023-12-11. Retrieved 2024-01-04.
- ↑ Franzen, Carl (2023-12-11). "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance". VentureBeat (به انگلیسی). Retrieved 2024-01-04.
- ↑ Field, Hayden (March 6, 2024). "Researchers tested leading AI models for copyright infringement using popular books, and GPT-4 performed worst". CNBC. Retrieved March 6, 2024.
- ↑ "Introducing CopyrightCatcher, the first Copyright Detection API for LLMs". Patronus AI. March 6, 2024. Retrieved March 6, 2024.
- ↑ "Pricing and rate limits | Mistral AI Large Language Models". docs.mistral.ai (به انگلیسی). Retrieved 2024-01-22.
- ↑ AI, Mistral (2024-02-26). "Au Large". mistral.ai (به انگلیسی). Retrieved 2024-03-06.
- ↑ AI, Mistral (2023-12-11). "La plateforme". mistral.ai (به انگلیسی). Retrieved 2024-01-22.
- ↑ "LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys". huggingface.co. Retrieved 2024-01-22.
- ↑ AI, Mistral (2024-02-26). "Au Large". mistral.ai (به انگلیسی). Retrieved 2024-03-06.