Generative pre-trained transformer — Вікіпедія

Модель GPT

Generative pre-trained transformer (GPT, укр. породжувальний попередньо тренований трансформер,[1] також генеративний попередньо тренований трансформер,[2] рідше породжувальний попередньо натренований трансформер[3]) — варіант «штучного інтелекту»[4][5] — це сімейство мовних моделей, які зазвичай навчаються на великому корпусі текстових даних для створення тексту, схожого на текст людини. Вони побудовані з використанням декількох блоків трансформної архітектури. Їх можна точно налаштувати для виконання різноманітних завдань обробки природної мови, таких як генерація тексту, переклад мови та класифікація тексту. «Попереднє навчання» в його назві означає початковий процес навчання на великому текстовому корпусі, під час якого модель вчиться передбачати наступне слово в уривку, що забезпечує надійну основу для успішної роботи моделі в наступних завданнях з обмеженою кількістю даних, що стосуються конкретного завдання.

Застосування

[ред. | ред. код]

Історія

[ред. | ред. код]

11 червня 2018 року OpenAI опублікував статтю під назвою «Покращення розуміння мови за допомогою генеративного попереднього навчання», в якому вони представили Generative Pre-trained Transformer (GPT).[11] На той момент, найефективніші нейронні моделі НЛП в основному використовували кероване навчання з великих обсягів даних, позначених вручну. Ця залежність від керованого навчання обмежувала їх використання в наборах даних, які не були добре анотованими, а також робила навчання надзвичайно великих моделей надто дорогим і трудомістким;[11][12] багато мов (наприклад, суахілі чи гаїтянська креольська) важко перекладати та інтерпретувати за допомогою таких моделей через брак доступного тексту для побудови корпусу.[12] На відміну від цього, «напівкерований» підхід GPT включав два етапи: некерований генеративний етап «попереднього навчання», на якому мета моделювання мови використовувалася для встановлення початкових параметрів, і керований етап дискримінаційного «тонкого налаштування», на якому ці параметри були адаптовані до цільового завдання.[11]

Версії GPT
Архітектура Кількість параметрів Тренувальні дані Дата релізу Вартість тренування
GPT-1 12-level, 12-headed Transformer decoder (no encoder), followed by linear-softmax. 0.12 млрд BookCorpus:[13] 4.5 ГБ тексту, з 7000 невиданих книг різних жанрів. 11.06.2018 1 місяць на 8 GPU (1.7e+19 FLOP)
GPT-2 GPT-1, але з модифікованою нормалізацією 1.5 млрд WebText: 40 ГБ тексту, 8 млн документів, 45 млн вебсторінок з позитивними оцінками на Reddit 14.02.2019(обмежена версія)/05.11.2019(повна версія) Десятки петафлопс/s-day (1.5e+21 FLOP)
GPT-3 GPT-2, but with modification to allow larger scaling. 175 млрд 570 ГБ plaintext, 0.4 trillion tokens. Mostly CommonCrawl, WebText, Англійська Вікіпедія, and two books corpora (Books1 and Books2). 28.05.2020 3640 петафлопс/s-day (3.1e+23 FLOP)
GPT-3.5 Засекречена 175 млрд Інформація засекречена 15.03.2022 Інформація засекречена
GPT-4 Засекречена Невідомо Інформація засекречена 14.03.2023 Інформація засекречена (орієнтовно 2.1e+25 FLOP)

Див. також

[ред. | ред. код]

Примітки

[ред. | ред. код]
  1. Вживання терміну «породжувальний попередньо тренований трансформер»:
    1. Байбакова, І.М.; Гасько, О.Л. (2023). Плюси та мінуси використання мовної моделі ChatGPT у навчальному процесі (PDF). Інноваційна педагогіка. 1 (64): 104—107. Архів (PDF) оригіналу за 21 липня 2024.
    2. Скіцько, В. (25—27 травня 2023). Генеративний штучний інтелект у ланцюгах поставок (PDF). Підприємництво та логістика в умовах сучасних викликів (укр.). Тернопіль: ЗУНУ. с. 281—285. Архів (PDF) оригіналу за 18 квітня 2024.
    3. Авдєєва, Н. (16 листопада 2023). Використання ChatGPT у викладанні музично-теоретичних дисциплін (PDF). Мистецтво естради: проблеми виконавської практики, системи освіти й наукових досліджень (укр.). Київ: КМАЕЦМ. с. 7—9. Архів (PDF) оригіналу за 3 червня 2024.
    4. Писаренко, Б.Л. (2021). Важливість технології «GPT-3» для сучасного та майбутнього мовознавства. Вісник студентського наукового товариства ДонНУ імені Василя Стуса (укр.). Вінниця: ДонНУ. 1 (13): 175—178. Архів оригіналу за 19 квітня 2022.
    5. Торбас, О.О. (2023). Способи використання штучного інтелекту при проведенні наукових досліджень в сфері кримінального процесу на прикладі функціоналу ChatGPT та аналізу категорії «розсуд» у кримінальному провадженні. Правові новели (укр.). Херсон: МУБіП (19): 368—377. doi:10.32782/ln.2023.19.48.
    6. Андрощук, А.Г.; Малюга, О.С. (2024). Використання штучного інтелекту увищій освіті: стан і тенденції. International Science Journal of Education & Linguistics (укр.). 3 (2): 27—35. doi:10.46299/j.isjel.20240302.04.
    7. Новицька, О. (2023). Проблеми реалізації академічної доброчесності при організації освітнього процесу. Scientific Collection «InterConf» (укр.). Бостон, США (160): 38—87. Архів оригіналу за 21 липня 2024.
    8. Лімачко, В.В. (6—12 грудня 2023). Застосування чату GPT у педагогічній діяльності: нові можливості для вчителів інформатики (PDF). Інноваційні практики наукової освіти : матеріали ІІІ Всеукраїнської науково-практичної конференції (укр.). Київ: ІОД НАПНУ. с. 411—413. Архів (PDF) оригіналу за 17 липня 2024.
    9. Гнатюк, В.О.; Зандер, К.Ю. (1 листопада 2023). Удосконалення роботи системи масового обслуговування з використанням віртуального асистента на базі штучного інтелекту. Інформаційна безпека та комп’ютерні технології (укр.). Кропивницький: ЦНТУ. с. 115—116. Архів оригіналу за 21 липня 2024.
    10. А.С., Габелок (9—10 лютого 2024). Діджиталізація навчально-виховного процесу у школах: всесвітні напрями та дійсність. Молодий вчений (укр.). Дніпро. с. 53—57. Архів оригіналу за 21 липня 2024.
    11. Михальчук, В.В. (2021). Основні поняття та практики обчислювального літературознавства (Computational Literary Critique) (M.Sc.) (укр.). Київ: НаУКМА. Архів оригіналу за 21 липня 2024.
    12. Андрощук, Г. (16 червня 2023). Штучний інтелект у системі правосуддя: інтерв’ю з ChatGTP. Юридична Газета (укр.). Архів оригіналу за 30 березня 2024.
    13. Польовик, С. (6 грудня 2023). Перспективи і проблеми розвитку штучного інтелекту та програмного додатку ChatGPT. Борисфен Інтел (укр.). Архів оригіналу за 8 грудня 2023.
  2. Вживання терміну «генеративний попередньо тренований трансформер»:
    1. Босий, М.В. (2023). Академічна доброчесність використання новітньої технології ChatGPT у навчальному процесі закладів вищої освіти. У Артюхов, А.; Віхляєв, М.; Волк, Ю. (ред.). Академічна доброчесність, відкрита наука та штучний інтелект: як створити доброчесне освітнє середовище (укр.). Львів — Торунь: Liha-Pres. с. 62—64. doi:10.36059/978-966-397-345-6-19.
    2. Яцюк, Д. (14 березня 2023). ChatGPT та штучний інтелект — нові інструменти у роботі маркетолога та бренд-менеджера (PDF). Бренд-менеджмент: маркетингові технології (укр.). Київ: ДТЕУ. с. 327—332. ISBN 978-966-918-077-3. Архів (PDF) оригіналу за 5 червня 2024.
    3. Толочко, С.; Хомич, В.; Колесник, Т. (2023). Великі мовні моделі в освітній і науковій діяльності. Scientific Collection «InterConf» (укр.) (166): 92—100. Архів оригіналу за 21 липня 2024.
    4. Кривонос, М.П. (2024). Приклад використання генеративного штучного інтелекту в освітньому процесі (PDF). Problems of Science and Technology: the Search for Innovative Solutions (укр.). Мюнхен, Німеччина. с. 151—156. Архів (PDF) оригіналу за 21 липня 2024.
    5. Терещук, С.; Слободянюк, О. (2023). Штучний інтелект як драйвер інновацій в освіті. Збірник наукових праць Кам'янець-Подільського національного університету імені Івана Огієнка (укр.). Кам'янець-Подільський: КПНУ. 29: 36—40. doi:10.32626/2307-4507.2023-29.36-40.
    6. Байбакова, І.М.; Гасько, О.Л. (2023). Плюси та мінуси використання мовної моделі ChatGPT у навчальному процесі (PDF). Інноваційна педагогіка. 1 (64): 104—107. Архів (PDF) оригіналу за 21 липня 2024.
    7. Боднарчук, О. Г. Використання штучного інтелекту ChatGPT у сфері наукових досліджень: переваги та недоліки. У Артюхов, А.; Віхляєв, М.; Волк, Ю. (ред.). Академічна доброчесність, відкрита наука та штучний інтелект: як створити доброчесне освітнє середовище (укр.). Львів — Торунь: Liha-Pres. с. 53—56. doi:10.36059/978-966-397-345-6-15.
    8. Геренко, С.С. (2024). Штучний інтелект у графічному дизайні: виклики та перспективи (PDF) (Ph.D.) (укр.). Київ: КНУКіМ. Архів (PDF) оригіналу за 21 липня 2024.
    9. Скіцько, В. (25—27 травня 2023). Генеративний штучний інтелект у ланцюгах поставок (PDF). Підприємництво та логістика в умовах сучасних викликів (укр.). Тернопіль: ЗУНУ. с. 281—285. Архів (PDF) оригіналу за 18 квітня 2024.
  3. Вживання терміну «породжувальний попередньо натренований трансформер»:
    1. Ігнатенко, В.Д. (2024). Місце машинного перекладу у діяльності сучасного перекладача: сучасні дискусії та бачення. У Дьякон, Р.; Мацевко-Бекерська, Л.В.; Бандровська, О.Т.; Бораковський, Л.А. (ред.). Сучасна філологія: теорія, історія, методологія (укр.). Т. 2. Рига, Латвія: Baltija Publishing. с. 523—534. doi:10.30525/978-9934-26-425-2-50.
    2. Берназюк, Ян (12 квітня 2024). Штучний інтелект як основа цифрового судочинства: помічник чи майбутній конкурент судді? (PDF). Всеукраїнський семінар для суддів місцевих та апеляційних судів «Застосування штучного інтелекту (artificial intelligence) в правосудді: зарубіжний та вітчизняний досвід (укр.). Верховний Суд України. Архів (PDF) оригіналу за 1 червня 2024.
    3. Берназюк, Ян (11 червня 2024). Інтеграція штучного інтелекту (artificial intelligence) в систему правосуддя: поспішай повільно (PDF) (укр.). Верховний Суд України. Архів (PDF) оригіналу за 18 червня 2024.
    4. Ланде, Д.В.; Фурашев, В.М. (2023). Парламентський контроль із застосуванням генеративного штучного інтелекту (укр.). Київ: ТОВ «Інжиніринг». ISBN 978-966-2344-82-0. Архів оригіналу за 21 липня 2024.
  4. Henry Kissinger, Eric Schmidt and Daniel Huttenlocher. A Robot Wrote This Book Review
  5. https://konkurent.ua/publication/112626/shtuchniy-intelekt-scho-bude-yakscho-ludini-ne-vdastsya-prokontroluvati-tehnologiu/ Штучний інтелект: що буде, якщо людині не вдасться проконтролювати технологію
  6. Roose, Kevin (5 грудня 2022). The Brilliance and Weirdness of ChatGPT. The New York Times (амер.). Архів оригіналу за 18 січня 2023. Процитовано 26 грудня 2022. Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.
  7. Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. с. 551. ISBN 9781544361376. Архів оригіналу за 10 січня 2023. Процитовано 10 січня 2023.
  8. Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H та ін. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.
  9. Matthias Bastian (29 січня 2023). BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder.
  10. Ferruz, N., Schmidt, S. & Höcker, B. та ін. (2022). ProtGPT2 is a deep unsupervised language model for protein design. Nature Communications volume. 13. doi:10.1038/s41467-022-32007-7.
  11. а б в Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). OpenAI. с. 12. Архів (PDF) оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
  12. а б Tsvetkov, Yulia (22 червня 2017). Opportunities and Challenges in Working with Low-Resource Languages (PDF). Carnegie Mellon University. Архів (PDF) оригіналу за 31 березня 2020. Процитовано 23 січня 2021.
  13. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19—27.