文本到图像生成模型 Search Results

文本到图像生成模型

文本到图像生成模型是一种机器学习模型，一般以自然语言描述为输入，输出与该描述相匹配的图像。这种模型的开发始于2010年代中期，伴随深度神经网络技术的发展而进步。2022年，最先进的文生图模型，例如OpenAI的DALL-E 2、谷歌大脑的Imagen和StabilityAI的Stable...

21 KB (2,088 words) - 06:22, 7 December 2024

生成式人工智慧

的一种版本接受文本和图像输入。基于单词或单词标记训练的生成式 AI 系统包括 GPT-3、LaMDA、LLaMA、BLOOM、GPT-4 等（请参阅大型语言模型列表）。它们能够进行自然语言处理、机器翻译和自然语言生成，并且可以用作其他任务的基础模型。制作高质量的视觉艺术是生成式人工智能的一个突出应用。...

6 KB (519 words) - 12:20, 24 December 2024

Sora (人工智能模型)

Sora是一个能以文本描述生成视频的生成式人工智慧模型，由美国人工智能研究机构OpenAI开发。 Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。模型...

5 KB (476 words) - 15:20, 10 December 2024

人工智能热潮 (section 文本到图像生成模型)

生成式人工智能为此次热潮的重要组成部分。OpenAI推出的生成式人工智能系统，如2018年推出的各类GPT以及2021年推出的DALL-E，皆对此次发展起到了推波助澜的作用。由于大型语言模型在2022年得到了提升，基于这一模型的聊天机器人得以成为现实。与此同时，文本到图像生成模型...

17 KB (1,334 words) - 13:43, 16 May 2023

Stable Diffusion (category 使用多个图像且自动缩放的页面)

Diffusion是2022年發布的深度學習文本到图像生成模型。它主要用於根據文本的描述產生詳細圖像，儘管它也可以應用於其他任務，如內補繪製、外補繪製，以及在提示詞指導下產生圖生圖的转变。它是一種潛在（英语：Latent variable model）擴散模型，由慕尼黑大學的CompVis研究團體開發的各種生成...

36 KB (3,302 words) - 19:18, 3 November 2024

多模态学习 (section 图像生成)

多模态学习是一种深度学习方法。它整合和处理多种类型的数据，例如文本、音频、图像或视频。这些不同类型的数据叫做模态。这种整合能够更全面地理解复杂数据，从而提高模型在视觉问答、跨模态检索、文本到图像生成、美学排名和图像字幕等任务中的性能。 2023年以来，多模态大语言模型（例如Google...

9 KB (1,143 words) - 03:22, 20 December 2024

扩散模型

扩散模型是在2015年提出的，其动机来自非平衡态热力学。扩散模型可以应用于各种任务，如图像去噪、图像修复、超分辨率成像、图像生成等等。例如，一个图像生成模型，经过对自然图像的扩散过程的反转训练之后，可从一张完全随机的噪声图像开始逐步生成新的自然图像...

10 KB (1,522 words) - 07:32, 4 October 2023

基于转换器的生成式预训练模型

文本和图像输入（尽管其输出仅限于文本）。多模态输出方面，一些基于转换器的生成式模型被用于文本到图像技术，如扩散和并行解码。此类模型可作为视觉基础模型（visual foundation models，简称VFMs），用于开发能够处理图像的下游系统。基础GPT模型...

52 KB (4,288 words) - 01:17, 20 December 2024

聊天机器人列表 (category 基于转换器的生成式预训练模型)

（页面存档备份，存于互联网档案馆）生成式人工智能聊天机器人大语言模型文本到图像生成模型 GPT-3 (OpenAI 對話語言模型) GPT-4 (OpenAI 對話語言模型) LLaMA(Meta 對話語言模型) LaMDA(Google 對話語言模型) BLOOM (對話語言模型) ElevenLabs(AI...

7 KB (676 words) - 09:20, 17 August 2024

DALL-E (section CLIP模型)

DALL-E是一个可以通过文本描述生成图像的人工智能程序，於2021年1月5日由OpenAI發布。 DALL-E通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入（例如“五边形形状的绿色皮革钱包”或“一只悲伤水豚的等距视图”）并生成相应的图片。它既可以生成现实的对象（例如“带有蓝色草莓图像...

19 KB (1,712 words) - 11:29, 22 June 2024

Transformer模型

summarization）文本生成命名实体识别生物序列分析视频理解 2020年，Transformer架构（更具体地说是GPT-2）被证明可以通过微调执行下象棋的任务。Transformer模型也已应用于图像处理，其结果可与卷积神经网络相媲美。 Transformer模型...

22 KB (2,911 words) - 18:42, 19 October 2024

Midjourney (category 生成式人工智能)

文本生成图像，於2022年7月12日進入公開測試階段，使用者可透過Discord的機器人指令進行操作。該研究實驗室由Leap Motion的創辦人大卫·霍尔兹（David Holz）負責領導。 Midjourney一直在努力改进其算法，并每隔几个月发布新的模型版本。V2于2022年4月推出，第三版于7月25日发布。...

9 KB (649 words) - 15:22, 6 August 2024

GPT-4 (redirect from 生成型预训练变换模型 4)

生成型预训练变换模型 4（英語：Generative Pre-trained Transformer 4，简称GPT-4）是由OpenAI公司开发並於2023年3月14日发布的自回归语言模型。Vox称GPT-4从各方面来说都优于OpenAI之前发布的GPT-3和GPT-3.5。The...

9 KB (741 words) - 15:09, 21 December 2024

计算机图形 (redirect from 電腦圖像)

用计算机表现或处理图像数据用于创建或处理图像的各种技术经过制作的图像计算机科学分领域的数字合成和处理视觉内容的研究，参见计算机图形学现在，计算机和计算机生成图像接触到日常生活的多个层面。计算机图像出现在电视、报纸等地方，同时在天气预报、医疗调查和手术操...

18 KB (2,847 words) - 07:26, 24 May 2024

Seq2Seq模型

用到各種不同的技術上，如聊天機器人、Inbox by Gmail等，但需要有配對好的文本集才能訓練出對應的模型。 Seq2seq是用于自然语言处理的一系列机器学习方法。应用领域包括机器翻译，图像描述，对话模型和文本摘要。此算法最初由Google开发，并用于机器翻译. 在2019年， Facebook宣布其用于求解微分方程。...

7 KB (738 words) - 04:19, 23 October 2023

提示工程 (section 文字到图像)

等文本到图像模型向公众发布。文本到影片生成 (TTV) 是一项新兴技术，可以直接根据文本描述创建影片。这个新颖的领域具有显着改变影片制作、动画和故事讲述的潜力。通过利用人工智能的力量，TTV 允许用户绕过传统的影片编辑工具，将他们的想法转化为移动图像。一些方法用非文本输入来增强或替换自然语言文本提示。...

12 KB (1,493 words) - 04:17, 21 November 2024

矢量图形 (redirect from 矢量图像)

图像。矢量图形与使用像素表示图像的位图不同。所有的现代计算机显示器都要将矢量图形转换成栅格图像的格式，包含屏幕上每个像素数值的栅格图像保存在内存中。从计算机发展的最初1950年代一直到1980年代，曾经使用过一种不同类型的矢量图形系统显示器。在这些系统中CRT显示器的电子束直接逐段生成...

7 KB (1,069 words) - 06:45, 10 May 2024

光学字符识别 (section 图像降噪)

Recognition，縮寫：OCR）是指对包含文本内容的图像或视频进行处理和识别，并提取其中所包含的文字及排版信息的过程。例如，一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后，转换为可编辑状态的 Word 格式文档。通常来说，根据不同文本内容的特性而言，OCR 技术的应用场景大致可分为以下几类：...

9 KB (1,151 words) - 04:56, 10 May 2024

计算机图形学

模型运动，但最近动力学模拟已成为更受欢迎更强大的方法。子领域运动捕捉骨骼动画动力学模拟（例如流体力学；機構運動）通过渲染生成模型的图像。渲染可能会模拟光线跟踪来创造真实的图像或者用它创建具有特殊艺术风格而非真实感绘制的图像。其中真实感绘制的两个基本运算是传递（多少光线从一个地方到...

7 KB (975 words) - 08:46, 12 January 2024

ChatGPT (redirect from 聊天生成预训练转换器)

話方式來互動，還可以用于甚為複雜的語言工作，包括自动生成文本、自动问答、自动摘要等多种任务。如：在自动文本生成方面，ChatGPT可以根据输入的文本自动生成类似的文本（劇本、歌曲、企劃等），在自动问答方面，ChatGPT可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。在推廣期間，所...

77 KB (7,381 words) - 12:56, 16 December 2024

D3DX

，如切线空间计算、网格简化、预计算辐射传输、顶点缓存友好性优化和条带重排序，以及3D文本网格的生成器。2D特性包括绘制屏幕空间线条、基于文本和精灵的粒子系统的类。空间函数包括各种交叉例程、转换重心坐标和边界框/球生成器。 D3DX库包含众多预先编写的例程，适用于大多数2D/3D应用程序（例如游戏）所需的常见操作。因为Direct3D...

5 KB (659 words) - 17:50, 7 December 2020

檢索增強生成

檢索增強生成( 英語：Retrieval-augmented generation, RAG ) ，是赋予生成式人工智能模型資訊檢索能力的技术。檢索增強生成最佳化大型语言模型(LLM) 的交互方式，讓模型根据指定的一组文件回應使用者的查詢，并使用这些資訊增强模型...

1 KB (131 words) - 10:04, 15 December 2024

XSL-FO (section 文本方向控制)

到子元素的部分。 XSL-FO有许多处理文本布局的功能。除了上面介绍的一些之外，XSL-FO语言可以完成下面定义的功能。一个页面可能需要多栏的布局，在这种情况下，数据块按照顺序从一栏排到下一栏。单个的数据块可以扩展到所有栏，在页面中生成文本...

12 KB (2,313 words) - 15:04, 3 February 2024

版面设计

高级版面设计决定文本和图像的整体布局及媒介大小或形状，这一级别的设计需要智慧、感知力和创造力，并且需要设计者不仅受到文化、心理学的影响，还要能根据文档作者和编辑的希望传达并强调特定主题。低级别的分页及排版则是更机械的过程，文本区域的边界、字体、字体大小和对齐偏好等都可以通过一些参数实现。...

22 KB (3,559 words) - 06:02, 10 October 2024

数据压缩

到期限，这种方法用于GIF图像。另外值得一提的是LZR （LZ-Renau）方法，它是Zip方法的基础。LZ方法使用基于表格的压缩模型，其中表格中的条目用重复的数据串替换。对于大多数的LZ方法来说，这个表格是从最初的输入数据动态生成的。这个表格经常采用霍夫曼编码维护（例如SHRI、LZX）。...

11 KB (1,650 words) - 04:41, 12 October 2023

NovelAI

文本到圖像生成功能，於2021年6月15日推出測試版，2022年10月3日推出圖像生成服務。 NovelAI的圖像生成模型是使用数个集成8个NVIDIA A100 GPU和1TB内存的计算节点在基于Danbooru的约530万张图片的数据集上对源代码可用的Stable Diffusion模型...

16 KB (1,709 words) - 09:45, 30 August 2024

人工智慧藝術 (section 文本到圖像模型)

自2014年開始，生成对抗网络（GAN）經常被AI藝術家所使用。該系統能夠使用「生成器」來創建新圖像，並使用「鑑別器」來決定哪些創建的圖像被認為是成功的。最近的模型則使用向量量化生成，以對抗網絡和對比文筆-圖像生成訓練（VQGAN+CLIP）。...

52 KB (4,379 words) - 19:07, 16 September 2024

幻觉 (人工智能) (category 語言模型)

2022年11月15日，Meta 发布了卡拉狄加（英語：Galactica）的演示版，旨在“存储、组合和推理科学知识”。卡拉狄加生成的内容带有警告“输出可能不可靠！语言模型很容易输出幻觉文本。”在一个案例中，当被要求起草一篇关于创建虚拟形象的论文时，卡拉狄加引用了一位在相关领域工作的工作者的虚构的论文。 Meta...

16 KB (1,808 words) - 05:00, 20 December 2024

可縮放向量圖形 (category 使用过时图像语法的页面)

矢量显示对象，基本矢量显示对象包括矩形、圆、椭圆、多边形、直线、任意曲线等嵌入式外部图像，包括PNG、JPEG、SVG等文字对象 SVG可以实现动态和交互功能。在DOM模型的基础上，SVG开发设计人员可以利用ECMAScript或者SMIL来进行时序控制或对象的操纵。SVG虽然是文本格式，但是SVG支持利用gzip压缩算法减少文件...

17 KB (1,795 words) - 18:29, 31 October 2024

有损数据压缩 (section 图像压缩)

一些方法将人体解剖方面的特质考虑进去，例如人眼只能看到一定频率的光线。心理声学模型描述的是声音如何能够在不降低声音感知质量的前提下，实现最大压缩。人眼或人耳能够察觉的有损压缩带来的缺陷称为压缩失真。上面的图像展示了用不同的有损压缩方法压缩同一幅图像得到的文件大小。这幅图像选自事实上的测试图像工业标准蓮娜圖。...

10 KB (1,183 words) - 04:20, 8 December 2024

對話程式語言模型

文本到圖像生成模型－Imagen。截至2023年1月，AI Test Kitchen的第三版本仍在開發中，預計於同年的I/O年會上推出。 2022年11月，美國人工智慧研究實驗室OpenAI推出了基于GPT-3语言模型的聊天机器人ChatGPT。Google意識到ChatGPT威脅到...

44 KB (3,577 words) - 06:20, 22 July 2024