Краткий словарь аббревиатур и терминов графических нейросетей v0.1: pixel

pixel_alchemist

Краткий словарь аббревиатур и терминов графических нейросетей v0.1

Nov 22, 2024 20:07

Когда-нибудь я напишу свой гайд по графическим нейросеткам, а это можно считать его частью.

2D (flat 2D) - мультяшные изображения
2.5D - изображения в стиле между 2D и 3D
3D - фотореалистичные изображения
automatic1111 (WebUI) - базовая программа с текстовым браузерным интерфейсом для генерации изображений при помощи моделей серии Stable Diffusion
ADetailer - технология поиска объектов на изображениях и их "исправления" (обычно используется для лиц, рук и других частей тела)
CFG Scale (Classifier-Free Guidance Scale) - число, влияющее на следование промпту (обычно чем выше, тем точнее учитывается текстовый запрос)
Checkpoint - файл с данными, основная модель (всегда включает U-Net, может включать CLIP и VAE)
CLIP (Contrastive Language-Image Pre-Training) - модель, преобразующая текст промпта в числовые коэффициенты, понятные основной модели (U-net)
ComfyUI - программа с графическим браузерным интерфейсом для генерации изображений
Denoise - процесс превращения изначального шума в изображение; см. также Noise, Sampling
DoRA - аналог LoRA
ControlNet - технология усиления контроля за результатом генерации (обычно контролируется форма, реже - цвет)
DALL-E - читается "Долли", семейство проприетарных Txt2Img моделей от OpenAI
Embedding - файл с данными, часто используемая добавка к промпту
Flux (FLUX) - семейство моделей для генерации изображений от Black Forest Labs
ForgeUI - программа с текстовым браузерным интерфейсом, основанная на automatic1111, для генерации изображений при помощи моделей серии Stable Diffusion и FLUX
Img2Img - метод получения изображения; изображение на входе модифицируется с учетом текстового промпта
Inpaint - нейросетевая обработка части изображения (Img2Img для указанной области)
Latent - латентное изображение (изображение в латентном пространстве), представление изображения "внутри" нейросети
LoRA (Low-rank adaptation) - файл с данными, дополнение к основной модели для решения более узкой задачи
LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - аналог LoRA
Midjourney - семейство проприетарных графических моделей от Midjourney Inc.
Niji (Niji Journey) - подсемейство моделей Midjourney для генерации 2D/2.5D-изображений
Noise - шум на изначальном латентном изображении; см. также Seed
OpenAI - американская компания, создавшая такие модели как ChatGPT и DALL-E
Outpaint - аналог Inpaint для области за границей изображения
PDXL (Pony Diffusion XL) - семейство моделей, основанных на SDXL, для генерации в первую очередь 2D/2.5D-изображений
Prompt - запрос, текст на человеческом языке, обычно английском; может иметь "позитивную" и "негативную" часть
Sampler - основной алгоритм, непосредственно отвечающий за генерацию изображения (примеры: DPM, Euler, LCM)
Sampling - процесс генерации изображения сэмплером, состоит из шагов (Steps); см. также Denoise
Scheduler - планировщик генерации (планировщики отличаются разницей весов на каждом из шагов генерации)
Seed - число, отвечающее за распределение шума на изначальном латентном изображении; см. также Noise
SD (Stable Diffusion) - крупное семейство моделей от Stability AI, в основном свободных
SDXL (Stable Diffusion XL) - подсемейство свободных графических моделей
Stability AI - компания, создавшая такие модели как Stable Diffusion, Stable Video Diffusion, Stable Audio и др.
Step (Sampling step) - шаг генерации изображения
Text Embedding - см. Embedding
Textual Inversion - см. Embedding
Tag - относительно независимая часть промпта (обычно слово или фраза между запятыми)
Token - числовое представление слова или части слова из промпта
Txt2Img - метод получения изображения, текст на входе преобразуется в изображение на выходе
U-Net - часть нейросетевой модели, отвечающая за хранение коэффициентов и обработку в латентном пространстве (по сути основная часть любой графической модели)
Upscale (Upscaling) - набор задач, технологий и алгоритмов для увеличения разрешения изображений
VAE (Variational autoencoder) - часть нейросети, отвечающая за преобразование изображений между обычным и латентным пространством
VAE decode - декодирование латентного изображения в растр
VAE encode - кодирование растра в латентное изображение

Исправления и дополнения приветствуются. Матан не приветствуется - словарик должен быть написан максимально простым языком.

Нейрогайд, Нейросети