Краткий словарь аббревиатур и терминов графических нейросетей v0.2: pixel

pixel_alchemist

Краткий словарь аббревиатур и терминов графических нейросетей v0.2

Dec 24, 2024 15:56

Количество терминов увеличено с 46 до 85.

2D (flat 2D) - мультяшные изображения (в т.ч. аниме)
2.5D - изображения в стилях между 2D и 3D
3D - фотореалистичные изображения
automatic1111 (WebUI) - базовая программа с текстовым браузерным интерфейсом для генерации изображений при помощи моделей серии Stable Diffusion
ADetailer (After Detailer) - технология поиска объектов на изображениях и их "исправления" (обычно используется для лиц, рук и других частей тела); см. также YOLO
Batch - набор одновременно генерируемых изображений
Blur - размытие изображения; графический артефакт, считающийся также стилистическим приемом
BREAK - ключевое слово в текстовом запросе для разбиения запроса на части (chunk)
CFG Scale (Classifier-Free Guidance Scale) - число, влияющее на следование промпту (обычно чем выше, тем точнее учитывается текстовый запрос)
Checkpoint - файл с данными, основная модель (всегда включает U-Net, может включать CLIP и VAE)
Civitai - популярный интернет-ресурс для хостинга моделей, онлайн-генерации изображений, публикации гайдов и т. д.
CLIP (Contrastive Language-Image Pre-Training) - модель, преобразующая текст промпта в числовые коэффициенты, понятные основной модели (U-net)
CodeFormer - один из алгоритмов для улучшения генерации лиц (face restoration)
ComfyUI - программа с графическим браузерным интерфейсом для генерации изображений
ControlNet - технология усиления контроля за результатом генерации (обычно контролируется форма, реже - цвет)
CPU (central processing unit) - центральный процессор
Cross-attention optimization - алгоритмы оптимизации нейросетевых вычислений; см. xFormers, Doggettx
CUDA (Compute Unified Device Architecture) - программно-аппаратная архитектура современных видеокарт от Nvidia; также является комплексом технологий для GPGPU
DALL-E (читается как "Долли") - семейство проприетарных Txt2Img моделей от OpenAI
Deepbooru (DeepDanbooru) - система тегов аниме-изображений, а также инструмент автоматического получения набора тегов для изображения (встроен в automatic1111)
Denoise - процесс превращения изначального шума в изображение; см. также Noise, Sampling
dGPU (discrete graphics processing unit) - дискретная видеокарта (видеокарта на отдельной плате)
Doggettx - один из алгоритмов cross-attention-оптимизации; алгоритм по умолчанию в automatic1111
DoRA (Weight-Decomposed Low-Rank Adaptation) - аналог LoRA
DPM (Diffusion Probabilistic Model solver) - семейство сэмплеров
Embedding - файл с данными, часто используемая добавка к промпту; обычно для негативной части
Euler - популярный тип сэмплера
Flux (FLUX) - семейство моделей для генерации изображений от Black Forest Labs
ForgeUI - программа с текстовым браузерным интерфейсом, основанная на automatic1111, для генерации изображений при помощи моделей серии Stable Diffusion и FLUX
gguf (.gguf, GPT-Generated Unified Format) - оптимизированный формат моделей для экономии места и увеличения скорости загрузки/сохранения
GPGPU (general-purpose computing on graphics processing units) - использование графического процессора для проведения произвольных вычислений (в том числе нейросетевых)
GPU (graphics processing unit) - графический процессор (процессор видеокарты или блок центрального процессора)
Guidance - обычно то же, что и CFG Scale
Heun - семейство сэмплеров
HuggingFace - популярный интернет-ресурс для хостинга моделей
iGPU (integred graphics processing unit) - встроенная видеокарта (сейчас обычно реализуется как часть CPU, ранее выполнялись как часть чипсета материнской платы)
Img2Img - метод получения изображения; изображение на входе модифицируется с учетом текстового промпта
Inpaint - нейросетевая обработка части изображения (Img2Img для указанной области)
Karras - популярный планировщик, позволяющий уменьшить количество шагов генерации; см. также Scheduler, Step
Latent - латентное изображение (изображение в латентном пространстве), представление изображения "внутри" нейросети
LoRA (Low-rank adaptation) - файл с данными, дополнение к основной модели для решения более узкой задачи
LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - аналог LoRA
Midjourney - семейство проприетарных графических моделей от Midjourney Inc.
Niji (Niji Journey) - подсемейство моделей Midjourney для генерации 2D/2.5D-изображений
Noise - шум на изначальном латентном изображении; см. также Seed
NSFW (Not Save For Work) - неприличные изображения (в основном порнографические)
ONNX (Open Neural Network Exchange) - нейросетевая библиотека для преобразования моделей между различными форматами
OOM (out of memory) - нехватка памяти; в контексте нейросетей обычно означает ошибку генерации из-за нехватки видеопамяти
OpenAI - американская компания, создавшая такие модели как ChatGPT и DALL-E
Outpaint - аналог Inpaint для области за границей изображения
PDXL (Pony Diffusion XL) - семейство моделей, основанных на SDXL, для генерации в первую очередь 2D/2.5D-изображений
Pony - см. PDXL
Prompt - запрос, текст на человеческом языке, обычно английском; может иметь "позитивную" и "негативную" часть
pt (.pt, Pickle Tensor) - расширение и формат файлов моделей для PyTorch; см. также safetensors
PyTorch - программная библиотека машинного обучения, используемая automatic1111 и другими WebUI; порт Torch на Python; использует CUDA
RAM (random-access memory) - оперативная память
safetensors (.safetensors) - расширение и формат файлов моделей для PyTorch; более безопасный вариант, чем Pickle Tensor - предотвращает исполнение вредоносного кода
Sampler - основной алгоритм, непосредственно отвечающий за генерацию изображения (примеры: DPM, Euler, LCM)
Sampling - процесс генерации изображения сэмплером, состоит из шагов (Steps); см. также Denoise
Scheduler - планировщик генерации (планировщики отличаются разницей весов на каждом из шагов генерации)
SD (Stable Diffusion) - крупное семейство моделей от Stability AI, в основном свободных
SDXL (Stable Diffusion XL) - подсемейство свободных графических моделей
Seed - число, отвечающее за распределение шума на изначальном латентном изображении
SFW (Save For Work) - приличные изображения (без явной эротики, порнографии, насилия и т. п.)
Simple - тип планировщика (обычно используется в комбинации с Euler для FLUX)
Stability AI - компания, создавшая такие модели как Stable Diffusion, Stable Video Diffusion, Stable Audio и др.
Step (Sampling step) - шаг генерации изображения
Super-resolution - см. Upscale
SwinIR (Shifted window Image Restoration) - технология апскейла; см. также Upscale
TAESD (Tiny AutoEncoder for Stable Diffusion) - механизм оптимизации VAE (экономия памяти и времени за счет качества)
Tag - относительно независимая часть промпта (обычно слово или фраза между запятыми)
Text Embedding - см. Embedding
Textual Inversion - см. Embedding
Token - числовое представление слова или части слова из промпта
Torch - программная библиотека машинного обучения, написанная на C/C++ и Lua; см. также PyTorch
Txt2Img - метод получения изображения; текст на входе преобразуется в изображение на выходе
U-Net - часть нейросетевой модели, отвечающая за хранение коэффициентов и обработку в латентном пространстве (по сути основная часть любой графической модели)
Upscale (Upscaling) - набор задач, технологий и алгоритмов для увеличения разрешения изображений
VAE (Variational autoencoder) - часть нейросети, отвечающая за преобразование изображений между обычным и латентным пространством
VAE decode - декодирование латентного изображения в растр
VAE encode - кодирование растра в латентное изображение
VRAM (video random-access memory) - видеопамять
Workflow - состояние интерфейса ComfyUI - набор блоков, связей и параметров; может быть сохранено в json
xFormers - библиотека от компании Facebook; популярный алгоритм cross-attention-оптимизации для экономии памяти и ускорения нейросетевых вычислений
YOLO (You Only Look Once) - нейросеть для обнаружения объектов на изображениях

Нейрогайд, Нейросети