aigenart.jp

Nano Banana Proで使うJSON + PBR – 徹底解説

はじめに

Pod Cast 「JSONと物理法則で描くAI画像


いまさら聞けない「Nano Banana Pro」とは

Nano Banana Pro(ナノバナナプロ)は、2025年11月にGoogle DeepMindが開発・発表した画像生成・編集AIモデルです。
従来の「Nano Banana(Gemini 2.5 Flash Image)」の上位モデル(Gemini 3 Pro Image)として位置づけられています。Nano Banana Proは、単なる画像生成にとどまらず、「推論能力を持つ画像生成AI」という新しいカテゴリを切り開きました。

主な特徴と機能は以下の通りです。

1. 圧倒的な文字描写力と日本語対応 
これまでの画像生成AIが苦手としていた「画像内への正確な文字入れ」を克服しています。 

  • 日本語対応: 日本語の文字化けが大幅に改善され、漫画の吹き出しやロゴ、インフォグラフィック、バナー作成などにおいて実用レベルのテキスト表現が可能になりました。
  • 高い正確性: 多言語にわたって94%のテキスト正確性を実現しています。 

2. 高精細な4K出力と編集自由度

  • ネイティブ4K解像度: 最大4096×4096ピクセルの高解像度画像を直接生成できるため、印刷物やプロフェッショナルな制作物にも対応します。
  • 柔軟なアスペクト比: 1:1から16:9まで、用途に合わせたサイズ調整が可能です。
  • 高度なインペインティング: 生成した画像の一部を指定して編集したり、カメラ角度や照明(昼から夜へなど)を後から調整したりできる「バーチャル・アートディレクター」のような機能を備えています。 

3. 一貫性と推論能力

  • 検索連動型の推論: Google検索に接続することで、現実世界の最新情報(例:最新スマホの内部構造など)を反映した正確な図解を作成できます。
  • キャラクターの一貫性: 最大5人までの特定の人物像を維持したまま、複数の画像を生成できます。
  • マルチイメージ構成: 最大14枚の参照画像を読み込み、それらを一つのシーンに統合することが可能です。

Nano Banana 2とNano Banana Proはどう違うの?

「Nano Banana 2(ナノ・バナナ・ツー)」と「Nano Banana Pro(ナノ・バナナ・プロ)」は、ともに高速かつ高品質な画像生成能力を強みとしていますが、用途やコスト面で明確な違いがあります。

結論から言うと、Nano Banana Proは「究極の品質と推論能力」を重視した上位モデルであり、Nano Banana 2は「爆速かつPro並みの品質」を無料で提供することを目指した最新の高速モデルです。
以下に共通点と相違点を詳しく解説します。

1. 共通点

エンジン: 両モデルは、Geminiファミリーの最新画像生成技術(Gemini 2.5 Flash Imageなど)を基盤としている。

特徴的な「文字描写力」: AI画像生成の弱点だった文字化けを克服し、画像の中に正確なテキスト(日本語含む)を描き出す能力が高い。

多用途: ロゴ、インフォグラフィック、グリーティングカード、バナーなど、実用的な画像生成が可能。

利用環境: Google AI Studio、Gemini APIを通じて利用可能。 

2. 相違点

最大の違いは、「最高画質・機能性」を追求したProか、「速度・コストパフォーマンス」を追求した2かという点です。
「プロ仕様のこだわり」か「日常使いのスピード」かで性能が分かれています。

特徴Nano Banana 2Nano Banana Pro
強み「爆速」生成モデル。Gemini 2.5 Flashを基盤とし、Proに迫る品質を瞬時に出力する。「推論能力」を持つ最高峰モデル。複雑な指示の理解が深く、細部までこだわり抜いた生成が可能。
生成速度非常に高速(Flashの特性)速いが、2よりは少し遅い
品質・精度Proに匹敵する「実質Pro」級だが、超高解像度化などはProに劣る場合がある。最上級の描写力・複雑な指示への対応力、図解の正確性や構図の安定性が最も高い。
料金・コスト比較的緩やか。最新モデルを無料で手軽に試せる。
Proより安い(コスパ最強)
無料版では非常に厳しい(1日約3枚程度)。
1K/4K解像度で$0.134~$0.24/枚程度
API/ツールGemini APIで利用可能Gemini API, Studioで利用可能
主な用途実用的なロゴ、バナー、日常利用高解像度イラスト、広告用など

3. 相違点の解説

生成速度 (2が優位): 「Nano Banana 2」は「Flash」の特性により、スピードを重視している。

表現力・画質 (Proが優位): 「Nano Banana Pro」は、プロフェッショナルな高クオリティな画像や、複雑な指示に基づいた描写に優れており、品質重視のクリエイター向け。

コストパフォーマンス (2が優位): 「Nano Banana 2」は、Proと同等の実用性を保ちながら、API利用料を抑えることができるため、大量生成に向いている。

4. 使い分けの目安

  • Nano Banana 2 を選ぶべき状況:
    • 速度重視(即座に画像が欲しい)
    • 大量の画像を生成したい(SNS用など)
    • コストを抑えて実用的な文字入りの画像を作りたい、SNS投稿用や、大量にバリエーションを出して試行錯誤を繰り返したい場合に最適です
  • Nano Banana Pro を選ぶべき状況:
    • 画質・リアルさ重視(最高品質が欲しい)
    • 複雑なプロンプト(指示)で生成したい
    • 広告や出版物など、高解像度が求められるプロの現場 、1枚のクオリティに妥協したくない場合や、複雑なロジックを画像に反映させたい場合に最適です

一般的に、日常的な実用シーンでは「2」で十分なケースが多く、デザインやイラストなど品質に妥協したくない場合に「Pro」が適している。


JSON 構造化データが得意なNano Banana Pro

JSONコード(構造化プロンプト)を使用して画像を生成する手法において、特に注目されているのは Google の「Nano Banana Pro」 です。 

特徴: 通常、画像生成AIは自然言語による文章(プロンプト)で指示を出しますが、JSON形式を使用することで、キャラクターの配置、背景、スタイル、カメラアングルなどをパラメータとして厳密に指定できる「設計型」の画像生成が可能になります。 
情報の結びつきをカッコで閉じ込める(カプセル化する)ことで、AIが要素を混同することなくオブジェクトの配置や属性を正確に指定する「設計する画像生成」を特徴としています。

JSON 構造化データ具体的なメリット

  1. 再現性の向上: 自然言語の揺らぎを抑え、数値やキーワードで固定できるため、同じ構成の画像を生成しやすくなります。
  2. 自動化との相性: Python などのプログラムから大量の画像を生成する場合、JSON データとしてプロンプトを管理するのが効率的です。
  3. 複雑な指示の整理: キャラクター、背景、照明、カメラなどの要素をカプセル化(グループ化)して伝えることで、AI が指示を誤認しにくくなります。
  4. 要素の分離: 「黒い帽子をかぶったグレーのコートの女性」のような指示で複数の色が混在する場合、構造化データとして色ごとに定義して、色の混ざり現象(カラーブリード)を防ぐことが可能になります。
  5. 自動化: Pythonなどのプログラムから一括で画像を生成する際、JSONは非常に相性が良いためです。
  6. 再現性: 複雑な設定をコードとして保存・再利用できるため、デザインのトーンを統一しやすくなります。

肥大化するコード – 文字数増大に対する問題点

サイト内の過去記事「フランス伝統色をJSONプロンプトに埋め込む」(2026年2月7日投稿)の「汎用性のある自然言語+HEX色指定プロンプト」欄でも触れたことですが、JSONコードで一目瞭然なのはとにかく文字数が多い。数千文字から一万文字近くになることも珍しくありません。この文字数が多いために画像生成ができないことがあります。

例えばFLUX-AI.IOなどのプラットフォームからJSONを実行しようとしてもコンテキストボックスに入力可能な文字数最大2,000文字という制限があります。つまり文字数の多いJSONコードは入力できません。この場合どうしても自然言語に頼らざるを得ないわけですが、Google Nano Banana Proでの生成においては、**JSONJSON公式WEBサイト – JSONの規格・構文に関する最も基本的な公式ページです)の基準に準拠した構造化されたコードであれば文字数3,000〜4,000文字程度でも画像生成に関しては問題は起きていません。

自然言語プロンプトの場合は通常は1,000~2,000トークン程度が適切です。長すぎると最初や最後にある情報が優先され、中間の情報が無視されなどAIは内容を無視する(情報の埋没 (Lost in the Middle)場合がありますので注意が必要です。
また単に文字の数だけでなく、単語や文字の組み合わせがトークン化されるため、日本語よりも英語の方が詳細を伝えやすい傾向も無視できません。

**JSONの概要
JSONは、軽量なデータ交換フォーマットであり、人間にとって読み書きが容易で、マシンにとっても簡単にパース(解析)や生成を行える形式です。 
特徴:
テキストベース: テキスト形式で記述されるため、可読性が高い。
言語独立: JavaScriptをベースにしていますが、C、C++、C#、Java、PHP、Python、Rubyなど多くの言語でサポートされています。
名前/値のペア{ "key": "value" } の形式。
配列: 順序付きリスト [ ... ]
データ型: 文字列、数値、null、bool値(true/false)、オブジェクト、配列。
用途: Web APIのレスポンスや、サーバーとWebアプリケーション間のデータ転送で広く使用されています。
注意点: コメントの記述は不可、データ構造が複雑になりやすい。
引用:→Google AI mode「JSON オフィシャル情報」

19世紀パリ、歴史的建造物の空間を生成する

物語の重要性

キーワードを羅列するのではなく、Nano Banana Proの強み、深い言語理解力を生かすため、断片的な単語の羅列よりも、ストーリー性のある概要を記述します。

1.生成するシーンの説明:
ステップ1:頭の中でイメージする生成したい画像の概要を自然言語(日本語)で書き起こします。

概要:
1875年に完成したパリ・オペラ座(パレ・ガルニエ)の壮大な大階段、その豪華な建築と華麗な細部を表現します。

1. 中央部と下部を占める、2つに分かれた大理石の壮大な階段が、豪華に装飾された複数の階層のギャラリーへと続いている様子を描いています。明るい色の大理石で作られた階段は、2つの優雅な曲線に分かれており、それぞれは、彫刻が施された暗い色の木製の手すりと、明るい色の石で作られた欄干で飾られています。手すりと壁に沿って、無数の精巧な燭台の光が周囲を照らし、空間全体に暖かく、ほのかな空間を演出しています。階段の中央手すり柱には、いくつかの大型の暗色ブロンズ像が配置されています。

2. 空間を圧倒する建築様式は驚くほど精巧で、磨かれた大理石の柱、アーチ、バルコニーが特徴的です。これらは様々な茶色、クリーム色、金色調で表現され、異なる種類の大理石と金箔装飾を示唆している。あらゆる表面は複雑な彫刻、渦巻き模様、レリーフで広範囲に装飾され、ヴィクトリア朝またはバロック様式の壮麗さを醸し出しています。上層階には手すりの付いたバルコニーとアーチ型の開口部が設けられ、壮大な建物内部のさらなる廊下や部屋を覗かせている。

3. 頭上には古典的なフレスコ画の大作が広がり、流れるような衣裳をまとった人物や柔らかな雲海を背景に、神話的・寓意的な情景が描かれている。下から漏れる温かな光に照らされた天井全体は、富と崇高な芸術的表現、建築的壮麗さを伝えるべく緻密に設計されている。生成画像には人物や動物は一切描かれておらず、建築物そのものが唯一のテーマ、焦点となっている。

4. 壮麗さと優雅さ、歴史の重みが漂う雰囲気です。温かな照明が、居心地の良さと畏敬の念を同時に喚起し、重要な社交行事や芸術公演のために設計された空間を思わせる。全体として、時代を超えた美しさと卓越した職人技が感じられ建築空間です。

ステップ2:以上の概要を生成モデル(Nano Banana Pro)に引き継ぐために英語に翻訳します。
モデルに複雑な指示を与える場合、単語や文字の組み合わせがトークン化されるため、日本語よりも英語の方が詳細を伝えやすい傾向があります。(経験上、日本語ではなく英語の方が良い結果が得られることが多いです。)


英語での自然言語プロンプトによるNano Banana Proでの生成画像


「壮大な大階段、その豪華な建築と華麗な細部を表現」「頭上には古典的なフレスコ画の大作」「明るい色の大理石で作られた階段は、2つの優雅な曲線に分かれており、それぞれは、彫刻が施された暗い色の木製の手すりと、明るい色の石で作られた欄干で飾られています」これらのすべての要素は確かに再現されています。
しかし構図やカメラ、レンズのパラメータ指示がないため、平凡な表現といわざるを得ません。
その辺りの不満要素を次のJSONプロンプトではたして解決へとつながるのか?

ではさらに追求を深め、Nano Banana Pro に対応した JSON(マークダウン+スライダー仕様)、
最終的にはPBR (Physically Based Rendering) の物理原理に基づくレンダリングまでいきます。
それでは引き続きお付き合いください。


Nano Banana Pro用JSONコード(マークダウン+スライダー仕様)での生成画像


Nano Banana Pro に対応した JSON ベースの設定(英語版)で、再利用可能なテンプレートとして構成されています。

これは、前記の詳細な概要(ガルニエ宮の大階段)を基に、高精細な建築ビジュアライゼーションを行うために設計されています。

このフォーマットは、Nano Banana Pro の JSON プロンプト作成における一般的なコミュニティのパターンに従っています。具体的には、説明文、制約条件、照明・カメラ・スタイルのパラメータ、および精度と一貫性を最大化するための明確な回避ルールを、明確に分類されたセクションに整理しています。

多くのNano Banana Proインターフェース(Gemini API、ComfyUIノード、サードパーティ製ツールなど)では、数値スライダーが利用可能です。この基本JSONを微調整する際の推奨範囲とデフォルト値は以下の通りです:

下記の「スライダーパラメータ」の項目事項、特に「構図の非対称性」、「照明の暖かさ」「被写界深度」、「カメラ設定」の要素が効いています。しかし大理石の床面に注目してください。この生成では磨き上げられた大理石の質感が生きていません。さらに光の反射、拡散など光の表現に不満が残ります。

スライダーパラメータ

パラメータ設定数値範囲説明
詳細レベル
Detail Level — Range
0.950~1.0超詳細な建築レンダリング。数値が高いほど、彫刻やレリーフが鮮明になります
忠実度
Fidelity / Prompt Adherence
0.980~1.0数値が高いほど、「人物なし」ルールや構造への準拠が厳格になります
リアリズム/フォトリアリズム
Realism / Photorealism
0.920~1.0照明に芸術的な温かみを残すため、最大値よりわずかに低く設定
アーティファクト低減
Artifacts Reduction
0.05 – 0.150.0~1.0低い値に設定すると、複雑なディテールが保持される
照明の暖かさ
Lighting Warmth
0.750.0~1.0黄金色の雰囲気の強さを調整
構図の対称性
Composition Symmetry
0.900.0~1.0高い値に設定すると、階段の分割がバランスよく配置される
テクスチャ強調
Texture Enhancement
0.880~1大理石、金箔、フレスコ画の細部
被写界深度
Depth of field
0.850~1ホール全体が鮮明に映る

カメラ設定

設定価値
カメラアングル斜め45度からの視点
ショットの種類幅広い建築ショット
レンズ24mm建築用レンズ
深さ​深い
構成中心に大型の暗色ブロンズ像

PBR (Physically Based Rendering) の物理原理に基づく生成画像


Nano Banana Pro(Geminiベース)は直接的なPBRパラメータ(metallic/roughness/iorなどの数値スライダー)をJSONでネイティブに持っていないため、主に以下の方法で対応します:

  • プロンプト内でPBR原則を明示的に指示(正確な光の反射・屈折・エネルギー保存・現実的な素材挙動)
  • materials セクションを新設し、各主要素材にPBR的な記述を追加
  • rendering / technical セクションで物理ベースのレンダリングを要求
  • パラメータでrealismfidelityを高く保ちつつ、物理矛盾を避ける指示を強化します。

スライダーパラメータ

パラメータ設定数値範囲説明
詳細レベル
Detail Level — Range
0.970.1〜1.0スカルプトやマテリアルの細部を強調
忠実度
Fidelity / Prompt Adherence
0.990〜1.0PBRの指示を厳密に遵守
リアリズム/フォトリアリズム
Realism / Photorealism
0.960〜1.0物理的なリアリズムを最大化
素材の再現性、材料の忠実度、質感の再現度
material_fidelity
0.940〜1.0各マテリアルのPBR特性の再現
アーティファクト低減
Artifacts Reduction
0.030〜1.0ディテールを損なわない最小設定
物理演算の精度
physics_accuracy
0.950〜1.0光の挙動と影の精度
色温度、雰囲気
lighting_warmth
0.70〜0.800〜1.0過度な明るさを避けつつ、歴史的な温かみを維持

このJSONをNano Banana Proに直接貼り付けて使用します。
PBRの挙動を最大限に引き出すには、「physically based」、「PBR」、「energy conserving」、「correct Fresnel」、「realistic microsurface」などのキーワードが非常に効果的ですので、必要に応じてさらに強調することも実験での想定内です。

まとめ

自然言語によるプロンプトからJSONによる生成要素の明確な指定、さらに前回の記事『最新の画像生成AIのパフォーマンスを生かすために』の冒頭でアナウンス的に触れた「物理法則による現実の再構築」-PBRによるレンダリングへと進めてきました。
下記の「スライダーパラメータ」の設定数値をひとつひとつ検証し、テンプレート化することにより効率化と完成度の追求につながるのではないかと思います。


投稿者プロフィール

Akira_O
Akira_O
こんにちは、AKIRA Obataです。私はAI技術を活用して、独自のデジタルアートを創作するアーティストです。テクノロジーとクリエイティビティの交差点で、新しい表現の可能性を探求しています。『aigenart』は、私の作品やアイデアを世界に発信する場であり、AIがもたらす美しさや楽しさを皆さんと共有したいと考えています。