
Полный практический разбор для AI-креаторов. Что реально работает, что — миф, и как получать кадры уровня «как настоящее фото», а не «как нейросеть».
Nano Banana — народное имя image-модели Google Gemini 2.5 Flash Image (и её старшей версии Nano Banana Pro / Gemini 3 Pro Image). И вот первое, что нужно понять, прежде чем писать хоть один промт:
Nano Banana — это не Midjourney и не Stable Diffusion. Это не диффузия.
Под капотом — нативно-мультимодальная языковая модель. Она «думает текстом» и рисует картинку как продолжение своего понимания сцены. Из этого следует всё остальное: она любит связную прозу, а не списки тегов; позитивные формулировки, а не негативные промты; и правки обычным языком, как будто вы объясняете ретушёру. Половина приёмов, которые вы привыкли копировать из мира диффузии (веса ::, негатив-флаги, «8k, masterpiece, ultra-detailed» гирляндой), здесь не просто бесполезна — она мешает.
Если вы усвоите только три правила из этой статьи, пусть это будут они:
Дальше — детали, примеры и нюансы, которые отделяют «прикольно вышло» от «попадание в десятку».
Войдите, чтобы оставить комментарий.
| Диффузия (MJ / SD) | Nano Banana (Gemini) | |
|---|---|---|
| Вход | список тегов + веса | проза, описание сцены |
| «Не хочу X» | негативный промт | позитивная переформулировка |
| Правка | новая генерация / inpaint-маска | разговор: «измени только X» |
| Соотношение сторон | в тексте/флагах | отдельная настройка генератора |
| «Сила» приёма | вес term::1.5 | порядок и ясность слов |
Корень всего — архитектура. Модель обучена обрабатывать текст и изображение в едином шаге, и её главная суперсила — глубокое понимание языка. Поэтому связный абзац, где есть причинно-следственные связи («кто → что делает → где → как падает свет → в каком стиле»), модель собирает в когерентную сцену. А список тегов оставляет её догадываться о связях — и она догадывается как умеет.
Дословная цитата из официального гайда Google:
«Describe the scene, don't just list keywords. A narrative, descriptive paragraph will almost always produce a better, more coherent image than a simple list of disconnected words.»
Плохо (привычка из Midjourney):
woman, red dress, cafe, paris, cinematic, 8k, bokeh, golden hour, highly detailedХорошо (Nano Banana):
A young woman in a flowing red dress sits at a small marble table outside a Parisian cafe,
gently stirring her espresso. Warm golden-hour light rakes across the scene from the left,
throwing long soft shadows. Shot on an 85mm lens with a shallow depth of field, the background
dissolves into creamy bokeh of café awnings and cobblestones.Видите разницу? Во втором варианте модель знает, откуда свет, что в фокусе, что размыто. Это и есть «понимание сцены».
⚠️ Гуляющая по блогам цифра «нарративные промты дают на 73% лучше результат» — выдумка, её нет ни в одном первоисточнике. Принцип верный, число — нет.
Наслаивайте блоки в таком порядке — но связным абзацем, а не по пунктам:
[Кто] + [что делает / выражение] + [где, окружение] + [композиция/ракурс] + [свет] + [стиль/грейд]Принцип простой: связность и конкретика важнее длины. Раздутый промт ради объёма вредит — модель теряет приоритеты.
Здесь Nano Banana приятно удивляет: в отличие от видеогенераторов, она понимает фотографический язык буквально — фокусные расстояния, диафрагму, даже модели камер и плёнки. Это мощный рычаг точности.
Тип кадра и ракурс:
wide-angle shot · close-up · extreme close-up · macro · low-angle perspective (мощь, доминирование) · high-angle (уязвимость) · bird's-eye / overhead · Dutch angle (напряжение) · over-the-shoulder · eye-level
Оптика (числа работают!):
| Цель | Формулировка |
|---|---|
| Портрет, лестная перспектива | 85mm portrait lens, f/1.8, shallow depth of field, soft bokeh |
| Натуральный кадр | 50mm lens, eye-level, natural perspective |
| Репортаж / улица | 35mm lens |
| Широкий угол мягко (всё в фокусе) | 24mm wide-angle lens, f/11, deep depth of field, slight barrel distortion |
| Широкий угол сильно, без круга | 14mm wide-angle lens, strong wide-angle barrel distortion |
| Экшн / динамика | GoPro action camera, ultra-wide immersive perspective |
🍌 Миф, который ломает кадры: слово `fisheye`. Банана трактует
fisheyeкак круглый кадр с чёрными углами (circular fisheye с виньетированием). Если вам нужен просто сильный широкий угол без круга — НЕ пишитеfisheye. Пишите14mm wide-angle lens + wide-angle barrel distortionилиGoPro, и добавьте позитивно «fills the whole rectangular frame, bright clean corners».
Свет — обязательный блок: golden hour · softbox studio light · rim light (контровой) · low-key (тёмно, контраст) · high-key (светло, мягко) · window light · dramatic chiaroscuro · backlight.
Тело камеры и плёнка — секретное оружие против «CGI-вида»: shot on Canon 5D · Fujifilm color science · Kodak Vision3 500T film · disposable camera with flash (сырой ностальгический вид) · Polaroid.
Самая частая жалоба креаторов: «кадр классный, но выглядит искусственно — слишком вылизанный, рекламный». Это решается. Представьте ползунок:
ГЛЯНЕЦ (реклама) ←————— ЖИВОЕ ФОТО (то, что нужно) —————→ ГРЯЗЬ (перебор)Большинство дефолтных генераций уезжают в левый край: идеальная airbrush-кожа, тяжёлые ресницы, ровный студийный свет, глянец. Чтобы сдвинуть в середину — добавляйте позитивные «репортажные» маркеры (не негативы!):
✅ Добавить для живости:
candid / documentary / photojournalistic · shot on a 35mm film camera · available natural light only, slightly uneven · natural skin texture with visible pores · slightly imperfect, unposed composition · shot on a real camera
❌ Убрать (именно это даёт «рекламу»):
cinematic · ultra-detailed · 8k · HDR · glossy · perfect · glamour · studio lighting · hyperreal
⚠️ Не переусердствуйте. Если задрать реализм, банана начинает «лепить» акне, грязь и пот — и кадр уезжает в правый край. Золотая середина для большинства задач — это чистая, здоровая, естественная кожа:
>
clear, healthy skin with natural texture and an even complexion, no acne or blemishes, no heavy retouching, natural matte skin
>
Эта формула держит баланс: не пластик и не прыщи. Ключевой приём — явно и позитивно задать «чистую здоровую кожу» и одновременно «не сглаживай в пластик».
Это, пожалуй, главный сценарий для креаторов: загружаешь своё фото-лицо как референс — и банана генерит тебя в любой сцене (на яхте, у водопада, на перроне частного джета). Вот честная инструкция.
Проверенной «магической фразы», которая гарантирует лицо 1:1, не существует. Формулировки из блогов («возьми внешность 1к1», «this exact character») при проверке не подтвердились. Сходство лица — это процесс, а не заклинание. Реалистичное ожидание: узнаваемый человек, близкое сходство — но не биометрический клон. Из нескольких генераций выбираешь лучшую.
1. НЕ описывай внешность словами. Раз лицо приходит с референса и может быть любым — не пиши цвет глаз, форму носа, возраст и особенно цвет/тип волос. Любое такое описание конкурирует с референсом и тянет лицо в свою сторону. Описывай всё, КРОМЕ лица и волос: сцену, одежду, позу, свет.
2. Используй идиому семантической маски. Вместо «возьми внешность 1к1» — позитивно перечисли, что держать, и явно запрети «улучшения»:
Keep the exact same face, identity and natural hair color as the reference photo — same facial
features, eye shape, nose, mouth, jawline, skin tone and proportions. Do not beautify, stylize,
slim, age, recolor the hair or alter the face in any way. Photorealistic, natural skin texture.Почему это лучше «1к1»: (а) позитивная формулировка, (б) названы конкретные черты, (в) прямой запрет типового дрейфа (beautify / slim / age).
3. Генерируй заново из исходного референса, а не правь предыдущий выход по цепочке — иначе накопится дрейф, и лицо «уплывёт».
4. Дай хороший референс — фронтальное, резкое, ровно освещённое фото. Несколько ракурсов (фас + 3/4) повышают стабильность.
5. Глаза должны быть видны и открыты. Закрытые глаза, тёмные очки, прищур, дайв-маска поверх лица — всё это снижает узнаваемость. Если в референсе-сцене глаза закрыты, добавь eyes open, looking at the camera — сходство вырастет.
Using the person from the reference photo, a [shot type] photo of them [doing action] in
[location/setting]. They wear [outfit]. [Lighting]. Shot on [lens, e.g. 85mm portrait lens],
shallow depth of field. [Mood / style].
Keep the exact same face, identity and natural hair color as the reference photo — same facial
features, eye shape, nose, mouth, jawline, skin tone and proportions. Do not beautify, stylize,
slim, age, recolor the hair or alter the face. Photorealistic, natural skin texture.50–85mm; экстремальную ширь оставь для экшн-сцен и держи лицо ближе к центру кадра.Перенос СТИЛЯ (не объектов). Прикрепляешь картинку-вдохновение и описываешь новую сцену:
[New scene]. Apply the color palette, lighting mood and overall visual style of the reference
image — its [warm muted tones / film grain] — but do not copy its objects, subject or composition.Чётко раздели: берём палитру/свет/грейд/настроение, НЕ берём объекты и композицию. Иначе скопируются предметы.
Точная копия. Для пересоздания: recreate this exact image as faithfully as possible: same composition, subject, pose, lighting, colors; do not add, remove or restyle. Реалистичное ожидание — очень близко, но не пиксель-в-пиксель (это генерация, не копипаст).
Редактирование (семантическая маска). Главный приём правок — явно сказать, что менять и что сохранить:
Change only the [element] to [new]. Keep the background, lighting, composition and everything
else in the image exactly the same. Do not change any other elements.Это семантическая, а не пиксельная маска — «не трогать» это намерение, не гарантия. Диалоговая правка (мультитёрн) — рекомендованный путь, но после многих правок по цепочке падает качество и дрейфует лицо → важное генери заново.
Если коротко: не доверяйте Nano Banana важный текст.
Правило для рекламы, обложек, открыток: критичный текст (заголовок, логотип, дата, «С Днём Рождения») накладывай в дизайнере (Figma / Canva / Photoshop) поверх готовой картинки. В промте оставь под него copy space — пустое место. Чужой логотип точнее вставить картинкой-рефом, чем просить «нарисуй логотип Nike».
Креаторы регулярно ловят отказ модерации на, казалось бы, безобидных кадрах. Дело в формулировках. Типичные триггеры и безопасные замены:
| ❌ Триггерит отказ | ✅ Безопасная замена |
|---|---|
sheer / see-through / wet clinging / soaked | opaque / cotton / linen + «with a swimsuit underneath» |
sultry / seductive / sensual / provocative | serene / confident / joyful / candid |
| белый мокрый топ, акцент на формах тела | цветной плотный (fitted sage-green top), акцент на свет/локацию |
lingerie | elegant dress / activewear |
Принцип: смещай акцент с тела на свет, локацию, эстетику и эмоцию, описывай одежду как плотную, а жанр — как editorial fashion / lifestyle / wellness. Это и проходит модерацию, и обычно делает кадр сильнее.
| ❌ Миф (из мира диффузии/блогов) | ✅ Как правильно |
|---|---|
Негативные промты (no cars, --no text) | Архитектурно негативного вектора нет. Пиши позитивно: empty street. |
Веса и теги (red dress::1.5) | Игнорируются. Только проза; «вес» = порядок и ясность слов. |
| `fisheye` для широкого угла | Даёт круглый кадр. Бери 14mm wide-angle / GoPro. |
| «Магическая фраза» для лица 1:1 | Не существует. Работает процесс (раздел 5). |
| Гарантия консистентности персонажа без дообучения | Бывает дрейф. Pro держит «сходство до 5 человек» — это возможность, не гарантия. |
| «Pro идеально рендерит текст» | Нет. Кириллица ломается — выноси в дизайнер. |
| `no CGI`, `no 3D` против пластикового вида | Негатив не работает. Добавь позитивные фотомаркеры: shot on a real camera, natural skin texture with pores, film grain, тело камеры/плёнку. |
| Сверхдлинный промт = лучше | Нужна связность, не объём. |
| «73% лучше с нарративом» | Цифра выдумана. |
do not alter the face, генерация из референса (а не по цепочке), глаза открыты?sheer/sultry/lingerie)?::, негатив-флаги, fisheye, «magic-фразы»)?A. Размытый бриф → промт. Вытащи субъект, действие, локацию, настроение, сценарий. Собери прозой по скелету, добавь свет/оптику/грейд.
B. Похожий промт → улучшить. Прогони по диагностике: теги → проза; негативы → позитив; веса → убрать; fisheye → 14mm; нет света/оптики → добавить; CGI-вид → фотомаркеры.
C. Реф стиля → перенести. Считай палитру/свет/грейд/настроение (НЕ объекты), опиши новую сцену + «apply the style, not the objects».
D. ИИ-фотосессия по реф-лицу. Не описывай внешность, держи лицо маской, генери из референса, жди близкого сходства, выбирай лучший дубль.
💡 Сложная сцена (много объектов, текст, несколько разных кадров в одном)? Банане тяжело собрать всё разом. Дроби: генери элементы по отдельности и собирай композицию в дизайнере — выйдет чище и управляемее.
В нашем генераторе ИИ промтинг работает с учетом этих правил и генерирует замечательные промты, попробуйте!
Nano Banana вознаграждает за две вещи, которые в мире диффузии были неочевидны: ясную человеческую речь и честное понимание, чего модель не умеет (магически держать лицо, рисовать текст, отличать «реализм» от «грязи»). Освойте прозу-описание, позитивные формулировки и реализм-дайл — и вы будете получать кадры, на которые люди говорят «не верю, что это нейросеть». А это и есть цель.
Материал подготовлен для Академии Нейлоры на основе верифицированного фреймворка промтинга Nano Banana (deep-research по официальным докам Google + hands-on-тесты). Приёмы, не прошедшие проверку, в статью намеренно не включены.