ترنسفورمر تولیدگر از پیش آموزشدیده - ویکیپدیا، دانشنامهٔ آزاد
ترنسفورمر تولیدگر از پیش آموزشدیده[الف] (به انگلیسی: Generative pre-trained transformers) یا به اختصار جیپیتی (به انگلیسی: GPT) نوعی مدل زبانی بزرگ (LLM)[۵][۶][۷] و یک چارچوب مشهور برای هوش مصنوعی تولیدگر است.[۸][۹] اولین جیپیتی در سال ۲۰۱۸ توسط شرکت آمریکایی اوپنایآی معرفی شد.[۱۰][۱۱] مدلهای جیپیتی شبکههای عصبی مصنوعی مبتنی بر معماری ترنسفورمرها هستند که از قبل، بر روی مجموعه ای از دادههای حجیم از متون بدون برچسب، آموزش دیدهاند و قادر به تولید محتوای جدید شبه انسانی هستند.[۶][۷] از سال ۲۰۲۳، اکثر مدلهای زبانی بزرگ این ویژگیها را دارند[۱۲] و گاهی بهطور گسترده به عنوان جیپیتی شناخته میشوند.[۱۳][۱۴]
اوپنایآی مدلهای تأثیرگذاری از خانواده جیپیتی منتشر کرده که به ترتیب شماره گذاری شدهاند تا سری GPT-n خود را تشکیل دهند.[۱۵] به دلیل افزایش اندازه (تعداد پارامترهای قابل آموزش) و تعلیم بیشتر، هر یک از مدلها بهطور قابل توجهی از قبلی توانایی بیشتری به دست آوردند. جدیدترین خانواده سری جیپیتی به نام جیپیتی-۴ در مارس ۲۰۲۳ منتشر شد. بات مکالمه چتجیپیتی نمونه ای از این مدل زبانی است که مورد توجه زیاد رسانهها و جهان قرار گرفت.[۱۶][۱۷][۱۸]
همچنین اصطلاح «جیپیتی» در نامها و توضیحات چنین مدلهایی که توسط دیگران ساخته شده استفاده میشود.[۱۹][۲۰] بهطور مثال شرکتها در صنایع مختلف جیپیتیهای اختصاصی خود را توسعه دادهاند مانند بلومبرگجیپیتی برای سرمایهگذاری.[۲۱][۲۲]
تاریخچه
[ویرایش]تولیدگر از پیش آموزش دیده (به انگلیسی: Generative pretraining) یک مفهوم قدیمی در زمینه علوم یادگیری ماشینی بود[۲۳][۲۴] در سال ۲۰۱۷ معماری ترنسفورمرها توسط گوگل اختراع شد.[۲۵] که منجر به ظهور مدلهای زبان بزرگ مانند BERT در سال ۲۰۱۸[۲۶] و XLNet در سال ۲۰۱۹ شد،[۲۷] این مدلهای زبانی فقط ترنسفورمرهای از پیش آموزشدیده (به انگلیسی: pretrained transformers) بودند که قابلیت زایش و تولید متن را نداشتند و صرفاً رمزگذار بودند.[۲۸] در حوالی سال ۲۰۱۸، اوپنایآی مقاله ای تحت عنوان «بهبود درک زبان توسط تولیدگر از پیش آموزشدیده» منتشر کرد که نخستین سیستم ترنسفورمر تولیدگر از پیش آموزشدیده (GPT) را معرفی کرد.[۲۹][۳۰]
قبل از معماریهای مبتنی بر ترنسفورمرها، مدلهای NLP عصبی (پردازش زبانهای طبیعی) وجود داشتند که از طریق مقادیر زیادی از دادههای برچسبگذاری شده نظارت شده آموزش میدیدند. اتکا به یادگیری نظارت شده، استفاده از آن مدلها را در مجموعه دادههایی که به خوبی حاشیه نویسی نشده بودند، محدود میکرد، همچنین آموزش مدلهای زبانی بسیار بزرگ بسیار پرهزینه و وقت گیر میشد.[۳۱]
رویکرد نظارت ضعیف اوپنایآی برای ایجاد یک سیستم تولیدی در مقیاس بزرگ (که برای اولین بار با یک مدل ترنسفورمر انجام میشد) - شامل دو مرحله بود: یک مرحله «یادگیری خودران» بدون نظارت جهت تنظیم پارامترهای اولیه و یک مرحله نظارت شده «تنظیم دقیق» جهت تطبیق این پارامترها.[۳۱][۳۲]
مدلهای پایه
[ویرایش]مدل پایه مدل هوش مصنوعی مدلی است که بر روی دادههای زیادی آموزش داده شده و میتواند با طیف گستردهای از وظایف سازگار شود.[۳۳] تاکنون، قابل توجهترین مدل پایه جیپیتی از سری GPT-n شرکت اوپنایآی بودهاست. جدیدترین مورد از آن جیپیتی-۴ است که اوپنایآی از انتشار اندازه یا جزئیات آموزشی آن خودداری کرد.[۳۴]
مدل | معماری | شمارش پارامتر | دادههای آموزش یافته | تاریخ انتشار | هزینه |
---|---|---|---|---|---|
جیپیتی ۱ | دیکودر ترنسفورمر ۱۲ سطحی، ۱۲ سر (بدون رمزگذار) | ۱۱۷ میلیون | ۴٫۵ گیگابایت متن، از ۷۰۰۰ کتاب منتشر نشده در ژانرهای مختلف.[۳۵] | ۱۱ ژوئن ۲۰۱۸[۱۱] | ۱ ماه بر روی ۸ پردازنده گرافیکی",[۱۱] یا 1.7e19 فلاپ.[۳۶] |
جیپیتی ۲ | جیپیتی-۱، اما با نرمال سازی اصلاح شده | ۱٫۵ میلیارد | وب تکست: ۴۰ گیگابایت متن، ۸ میلیون سند، از ۴۵ میلیون صفحه وب که در ردیت رأی بالایی داشتهاند. | ۱۴ فوریه ۲۰۱۹ (نسخه اولیه/محدود) و ۵ نوامبر ۲۰۱۹ (نسخه کامل)[۳۷] | "دهها پتافلاپ در روز",[۳۸] یا 1.5e21 فلاپ.[۳۶] |
جیپیتی ۳ | جیپیتی-۲ اما با تغییراتی برای تبدیل شدن به مقیاس بزرگتر | ۱۷۵ میلیارد | ۴۹۹ میلیارد توکن (۵۷۰ گیگابایت)، وب تکست، ویکیپدیای انگلیسی و دو مجموعه کتاب | ۲۸ مه ۲۰۲۰[۳۸] | ۳۶۳۰ پتافلاپ در ثانیه,[۳۸] یا 3.1e23 فلاپ.[۳۶] |
جیپیتی ۳٫۵ | عمومی نشده | ۱۷۵ میلیارد | عمومی نشده | ۱۵ مارس ۲۰۲۲ | عمومی نشده |
جیپیتی ۴ | قابلیت پیش بینی کننده متن و تقویت یادگیری از بازخورد انسانی را شامل شده که هم متن و هم عکس را به عنوان ورودی میپذیرد. جزئیات بیشتر عمومی نشده.[۳۴] | عمومی نشده | عمومی نشده | ۱۴ مارس ۲۰۲۳ | عمومی نشده ولی 2.1e25 فلاپ تخمین زده شده.[۳۶] |
مدلهای دیگری از این دست عبارتند از مدل زبانی مسیرها شرکت گوگل [۳۹][۴۰] و هوش مصنوعی متا که دارای یک مدل زبان بزرگ پایه مبتنی بر ترنسفورمر مولد است که تحت عنوان LLaMA شناخته میشود.[۴۱][۴۲]
همچنین برخی جیپیتیها میتوانند از روشهایی غیر از متن ورودی/خروجی استفاده کنند. جیپیتی-۴ قادر به پردازش متن و ورودی تصویر است (اگرچه خروجی آن محدود به متن است).[۴۳][۴۴]
یادداشت
[ویرایش]- ↑ در برخی منابع «ترنسفورمر از پیش آموزشدیده مولد»[۱] یا «ترنسفورمر از پیش تعلیمیافته زایا»[۲] یا «مولد ازپیشآموزشیافته ترنسفورمر»[۳] یا «مبدل تولیدگر از پیش تعلیمدیده»[۴] نیز ترجمه شدهاست.
منابع
[ویرایش]- ↑ «OpenAI در ثبت علامت تجاری GPT ناکام ماند». دیجیاتو. دریافتشده در ۲۰۲۴-۱۰-۲۱.
- ↑ «شرکت OpenAI برای مقابله با نمونههای رقیب میخواهد نشان تجاری GPT را ثبت کند». دیجیاتو. دریافتشده در ۲۰۲۳-۰۶-۰۹.
- ↑ «OpenAI؛ شرکت مرموزی که میخواهد زودتر از همه به هوش مصنوعی انسانگونه برسد». زومیت. ۲۰۲۳-۰۲-۲۶. دریافتشده در ۲۰۲۳-۰۶-۰۹.
- ↑ جنانی، افشین (۲۰۲۳-۰۱-۳۰). «ChatGPT چیست و چه اثری بر دیجیتال مارکتینگ و تولید محتوا دارد؟». دریافتشده در ۲۰۲۳-۰۶-۰۹.
- ↑ Haddad, Mohammed. "How does GPT-4 work and how can you start using it in ChatGPT?". www.aljazeera.com.
- ↑ ۶٫۰ ۶٫۱ "Generative AI: a game-changer society needs to be ready for". World Economic Forum.
- ↑ ۷٫۰ ۷٫۱ "The A to Z of Artificial Intelligence". Time. April 13, 2023.
- ↑ Hu, Luhui (November 15, 2022). "Generative AI and Future". Medium.
- ↑ "CSDL | IEEE Computer Society". www.computer.org.
- ↑ Solaiman, Irene; Brundage, Miles; Clark, Jack; Askell, Amanda; Herbert-Voss, Ariel; Wu, Jeff; Radford, Alec; Krueger, Gretchen; Kim, Jong Wook; Kreps, Sarah; McCain, Miles; Newhouse, Alex; Blazakis, Jason; McGuffie, Kris; Wang, Jasmine (2019-11-12). "Release Strategies and the Social Impacts of Language Models". arXiv:1908.09203 [cs.CL].
- ↑ ۱۱٫۰ ۱۱٫۱ ۱۱٫۲ "Improving language understanding with unsupervised learning". openai.com (به انگلیسی). Archived from the original on 2023-03-18. Retrieved 2023-03-18.
- ↑ Toews, Rob. "The Next Generation Of Large Language Models". Forbes.
- ↑ Mckendrick, Joe (March 13, 2023). "Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests". Forbes.
- ↑ "GPT-2: 1.5B release". openai.com (به انگلیسی). Retrieved 2023-05-01.
- ↑ "GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared". MUO. April 11, 2023.
- ↑ gpt-2, OpenAI, 2023-05-01, retrieved 2023-05-01
- ↑ "WebGPT: Improving the factual accuracy of language models through web browsing". openai.com (به انگلیسی). Archived from the original on 21 Jun 2023. Retrieved 2023-07-02.
- ↑ Nakano, Reiichiro; Hilton, Jacob; Balaji, Suchir; Wu, Jeff; Ouyang, Long; Kim, Christina; Hesse, Christopher; Jain, Shantanu; Kosaraju, Vineet; Saunders, William; Jiang, Xu; Cobbe, Karl; Eloundou, Tyna; Krueger, Gretchen; Button, Kevin (2021-12-01). "WebGPT: Browser-assisted question-answering with human feedback". CoRR. arXiv:2112.09332.
- ↑ Alford, Anthony (July 13, 2021). "EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J". InfoQ.
- ↑ "News" (Press release).
- ↑ Morrison, Ryan (7 March 2023). "Salesforce launches EinsteinGPT built with OpenAI technology". Tech Monitor.
- ↑ "The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech". Forbes.
- ↑ Hinton (et-al), Geoffrey (October 15, 2012). "Deep neural networks for acoustic modeling in speech recognition" (PDF). IEEE Signal Processing Magazine. Digital Object Identifier 10.1109/MSP.2012.2205597. doi:10.1109/MSP.2012.2205597. S2CID 206485943.
- ↑ "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Cambridge.org. 2014-01-22. doi:10.1017/atsip.2013.9. S2CID 9928823. Retrieved 2023-05-21.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (December 5, 2017). "Attention Is All You Need". arXiv:1706.03762.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (May 24, 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805v2.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Yang (et-al), Zhilin (2019). "XLNet" (PDF). Proceedings from NeurIPS 2019.
- ↑ Naik, Amit Raja (September 23, 2021). "Google Introduces New Architecture To Reduce Cost Of Transformers". Analytics India Magazine.
- ↑ OpenAI (2023-03-27). "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL].
- ↑ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (2023-04-13). "Sparks of Artificial General Intelligence: Early experiments with GPT-4". arXiv:2303.12712 [cs.CL].
- ↑ ۳۱٫۰ ۳۱٫۱ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. Archived (PDF) from the original on 26 January 2021. Retrieved 23 January 2021.
- ↑ "GPT-4". openai.com (به انگلیسی). Retrieved 2023-05-01.
- ↑ "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI.
- ↑ ۳۴٫۰ ۳۴٫۱ OpenAI (2023). "GPT-4 Technical Report" (PDF). Archived (PDF) from the original on 2023-03-14. Retrieved 2023-03-16.
- ↑ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. IEEE International Conference on Computer Vision (ICCV) 2015. pp. 19–27. arXiv:1506.06724. Archived from the original on 2023-02-05. Retrieved 2023-02-07.
- ↑ ۳۶٫۰ ۳۶٫۱ ۳۶٫۲ ۳۶٫۳ "ML input trends visualization". Epoch (به انگلیسی). Retrieved 2023-05-02.
- ↑ Vincent, James (November 7, 2019). "OpenAI has published the text-generating AI it said was too dangerous to share". The Verge.
- ↑ ۳۸٫۰ ۳۸٫۱ ۳۸٫۲ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (May 28, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165v4.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Vincent, James (March 14, 2023). "Google opens up its AI language model PaLM to challenge OpenAI and GPT-3". The Verge.
- ↑ "Google Opens Access to PaLM Language Model".
- ↑ هوش مصنوعی متا. «شماره مجازی چت جی پی تی». دریافتشده در ۲۰۲۴-۰۵-۰۵.
- ↑ "Meta Debuts AI Language Model, But It's Only for Researchers". PCMAG.
- ↑ Islam, Arham (March 27, 2023). "Multimodal Language Models: The Future of Artificial Intelligence (AI)". Archived from the original on 15 May 2023. Retrieved 9 June 2023.
- ↑ GPT-4 System Card, OpenAI, March 23 2023 (Accessed May 22 2023).