無料とは思えない、最高のAI 画像ジェネレータ
Imagen3 が2024年12月にリリースされてから今月で5ヶ月目、Imagen2 と比較するとリアリズム性の飛躍的向上、プロンプト追従性の目覚ましい進化には驚くばかりです。フォトリアリズムから水彩画、ルネッサンスや印象派絵画、日本のアニメーションまでと、ありとあらゆる画風の再現が可能です。
特に「日本人」の自然な表情や仕草に対する評価も高く、Imagen3 の優れたレンダリング性能に加えてプロンプトの分析能力の劇的な向上が実感できます。
これまでの投稿記事で触れてきたことですがImagen3 が「カメラレンズの種類、光の絞り値など、写真用語といった「Cheat Codes」の意味が理解できていることも大きな驚きです。
Google Imagen3 – ImageFXは、初心者がさまざまなアイデアを無料で(お試し期間、などといったケチな話ではなく)思う存分簡単に試せるのは大きな魅力です。以上の理由からImagen3 は、現在無料で使える最高のAI 画像ジェネレータだと言えます。
画像完成度ハンパない「 Imagen3プロンプトの解釈力」
Google Image3 は、Google DeepMindが開発した「テキストから画像を生成するAIモデル」です。 ユーザーが入力したテキスト(プロンプト)に基づいて、多様なスタイルの画像を数秒から数十秒で生成できます。正確に記述されたプロンプトであれば、ディティール、豊かな照明効果、アーティファクト(不要なノイズ)が少ない鮮明な画像が生成できます。仮に画像生成AI初体験の方だったとしても、無料で使えるImageFXプラットフォームにアクセスしてみる価値は十分にあるでしょう。
Imagen3 もっとも簡略な使い方
- AI Test Kitchenにアクセスし、Googleアカウントでサインインします。
- プロンプト(日本語、英語どちらでも大丈夫です)を入力し、「作成」をクリックします。たったこれだけです!
- 「もっと作成」を使えばバリエーションを試すこともできます。

Imagen3 – ImageFX
サッカーの試合中、筋肉が緊張し、空中に雨粒が見える選手のダイナミックな長時間露光ショット。400mm F2.8の望遠レンズで撮影し、速いシャッタースピードでピンシャープなピントを合わせ、背景にモーションブラーを入れます。
Dynamic long exposure shot of a During a soccer game, a player, muscles tensed and rain drops visible in the air, shot with a 400mm f/2.8 telephoto lens, fast shutter speed for pin-sharp focus, motion blur in the background.
プロンプトのコツ
良い画像を得るには、具体的で詳細なプロンプトが重要です。主題、環境、照明、色、雰囲気を明確に記述し、自然な言葉で書くと効果的です。
Imagen3、ガチ プロンプトで徹底テスト
Imagen 3 の可能性を確認するために、このサイトではこれまでに写真撮影スタイルのプロンプトによる実験を繰り返してきました。レンズやカメラの具体的な情報、例えば「Photo taken with LUMIX S1RII with LUMI XS PRO 50mm F1.4(s-x50), F2,」のように、カメラ、レンズ、絞り値などの「Cheat Codes」をプロンプトに組み込んだ場合、生成画像にどのような効果がが見られるか否かといった試行錯誤を記録してきました。
Imagen3がどれだけうまく画像を生成しているか、反対に残念な結果を出してしまったか、そしてさらに重要なことは、プロンプトの内容から人間の感情や感覚をどこまで捉え、表現できるかを確認することが現時点での私の目的です。
1. 同じプロンプトでImagen2 と Imagen3の実力比較
それでは最初に約半年間、Imagen2からImagen3への進化を結果を比較してみましょう。
一枚目はAI画像生成に着手して一週間が過ぎた2024年9月8日、Imagen2の生成画像です。
最初、日本語でプロンプトを組み立てて出力しましたが、思うような結果が得られず、英語に変更。センテンスの優先順位を見直しながら、ほぼイメージに描いていた結果が得られました。画像モデルは写真ではなくイラストレーションを指定しました。この時の経験値から、今でもプロンプトは基本的に英語を使用しています。
二枚目は2025年5月15日、Imagen3での出力です。プロンプトは一枚目と同じ内容です。
一枚目と比べるとそれぞれの個体の質感がリアルになり、特に朽ちた樹木に寄生する苔の表現が美しく表現されています。背景の奥行き感(空気感)、光のグラデーションも秀逸です。
しかしこのような作例の場合、Imagen2の柔らかい画質を良しとするのか、Imagen3のエッジの立ったシャープ感を良しとするかは人それぞれの好みによるところでしょう。そういったニュアンスの調整はプロンプト、あるいはレンズ情報、被写体深度などのチートコードの設定によって、調整は十分に可能だと思います。

Imagen3 – ImageFX

Imagen3 – ImageFX
A detailed illustration of an owl with brown and white spotted feathers perched on a mossy branch. Above and to the right, a vibrant green and purple hummingbird hovers in mid-air. To the far right, a colorful toucan with a large orange and yellow beak perches on another branch. Below the hummingbird and toucan, a majestic peacock with brilliant blue and green plumage and a fully fanned tail sits on the main branch. To the left of the peacock, a spiky creature resembling a porcupine or hedgehog sits near delicate pink flowers. The background is a misty forest with tall trees and rays of sunlight filtering through the canopy, creating a dreamy, ethereal atmosphere. Soft lighting, realistic details, vibrant colors, intricate textures, natural setting.
苔むした枝にとまる茶色と白の斑点のある羽を持つフクロウの詳細なイラスト。その上と右側には、鮮やかな緑と紫のハチドリが宙を舞っている。右端には、オレンジと黄色の大きなくちばしを持つカラフルなオオハシが別の枝に止まっている。ハチドリとオオハシの下には、鮮やかな青と緑の羽を持ち、尾をいっぱいに広げた威厳のあるクジャクが主枝に座っている。クジャクの左側には、ヤマアラシかハリネズミに似たトゲトゲした生き物が、繊細なピンクの花のそばに座っている。背景は霧に包まれた森で、高い木々が林冠から差し込む陽光が、夢のような幽玄な雰囲気を醸し出している。ソフトな照明、リアルなディテール、鮮やかな色彩、複雑なテクスチャー、自然な環境。
2. 歩行者がバスに轢かれないように
街の風景は意外と生成が難しい課題です。特に繁華街の車と歩行者との位置関係がうまくいかず、歩行者が車に轢かれそうな配置になることが多い。AIは特に指示をしない限り、車道と歩道の区別がつかいなようです。しかしImagen3はこの問題を解決してくれました。
構図的には「左側にはバスと同じような色のジャケット着た男性」を配置することによって構図的な色彩バランスを狙ったのですが、20枚ほど生成しても「バスと同じような色」は実現できませんでした。
テーマの「雨の日の賑やかな東京の通り」「濡れた舗道に反射して揺らめく傘を差す人々」は期待通りです。「都営バス」の学習データは足りなかったようです。看板などの日本語の文字表現はまだまだですね。
35mmレンズ、浅い被写界深度は十分反映しています。

Imagen3 – ImageFX
Street-level photograph of a bustling Tokyo street on a rainy day, people holding umbrellas as reflections shimmer on wet pavement, shot with a 35mm lens, shallow depth of field focusing on a green Tokyo Metropolitan Bus in the background, On the left is a man wearing a jacket similar in color to the bus, natural light, candid moment. realistic natural light
雨の日の賑やかな東京の通りのストリートレベル写真。濡れた舗道に反射して揺らめく傘を差す人々。35mmレンズで撮影、被写界深度は浅く、背景の緑色の都営バスにピントを合わせている。左側にはバスと同じような色のジャケットを着た男性がいる。自然光、率直な瞬間。リアルな自然光。
3. 鏡に映った指を正しく表現したい
画像生成AIが普及し始めた頃、人体を解剖学的に正しく生成することがAIには苦手でした。腕や足が何本も生成されたり、顔の形状も崩れやすく、とても使い物にはならない、と感じたのは私だけではないでしょう。
しかし現在は劇的に改善されtます。それでも私の不十分なプロンプトで人間の微妙な感情や仕草を再現することはまだまだ難しいと感じています。
そんなことを承知の上で挑んだのが次の課題です。
この一枚を得るためにじつは100枚以上の生成を試みています。

Imagen3 – ImageFX
A black and white photograph captures a close-up of a person's face partially obscured by a thin, reflective surface, possibly a mirror screen. The focus is on the eye and lips, with the rest of the face fading into the shadows. No part of the face should be present outside the mirror surface. The hand, holding the reflective surface, is positioned in the lower left portion of the frame, with fingers gently curled around the edge. The lighting is dramatic, creating a strong contrast between light and dark areas, emphasizing the textures of the skin and the reflective quality of the surface. The overall mood is mysterious and introspective. highly detailed cinematic minimal dramatic
モノクロ写真は、薄い反射面(おそらく鏡のスクリーン)で部分的に隠された人物の顔のクローズアップをとらえている。ピントは目と唇に合わせ、顔の他の部分は影になる。鏡面の外側に顔のどの部分もあってはならない。反射面を持つ手はフレームの左下に位置し、指は縁を緩やかに巻いている。ライティングはドラマチックで、明るい部分と暗い部分の強いコントラストを作り出し、肌の質感と鏡面の反射を強調している。全体的なムードはミステリアスで内省的である。
100枚以上のプロンプト チューニングをしながらの生成過程の一部が次のショットです。
それぞれの画像をダウンロードして拡大するとほとんどがダメ。表情が好きじゃなかったり、視線が不自然だったり、肌がめっちゃ荒れていたり。しかも依然として6本指が多発。
それでも1枚が合格点に達していました。
特に生成が困難だっのが鏡を支える指の一部がしっかりと鏡に映り込んでいるか否かという点です。
成功率1%でした。

4. ハサミを握って糸が切れるのか
これはかなり変則的な要望をプロンプトに盛り込んでみました。
鋏を親指と人差し指で保持して細い糸を切るというものです。
やはり30枚以上を再生成して、得られた画像です。カメラとレンズ、RAW形式の指定も功を奏して繊細な木の質感、硬さ、金属の質感、指先や爪のディティールなど、合格です。

Imagen3 – ImageFX
Generate a IMG_4021.RW2 shot with LUMIX S PRO 50mm F1.4, F2, ultra realistic, Create a 8K professional photo of a image depicting a wooden human anatomy mannequin with high contrast and sharp definition. The mannequin should be captured in an action pose, specifically cutting a thread that is positioned over it with a pair of scissors. Ensure the image clearly showcases the detailed wood texture, the tension and dynamism of the action, and strong visual contrast
LUMIX S PRO 50mm F1.4、F2、超リアルで撮影したIMG_4021.RW2を生成し、高コントラストでシャープな解像度を持つ木製の人体解剖学マネキンを描写した画像の8Kプロフェッショナル写真を作成する。マネキンはアクションポーズで撮影し、特にその上に置かれた糸をハサミで切るようにします。詳細な木の質感、アクションの緊張感や躍動感、強い視覚的コントラストがはっきりと表現されていることを確認してください。
5. 生活感が感じられる、都市のジミな一面を表現したい
これは一発で成功でした。プロンプトに1990年代と指定したので、どのような出力になるのか期待感と不安感がごちゃごちゃになってましたが、人々のファッションもほぼ狙い通り。
「明るいセピア」と「厳しくコントラストの強い照明が強い影」というあえて矛盾した内容でプロンプトを組んでみました。プロンプトの黄金率とおり、最初の語句が採用されています。いろいろと疑問を抱えているより、あえて矛盾点を試してみるのも学びにつながります。

Imagen3 – ImageFX
1990s, bright sepia street photography. Low-angle shots of diverse pedestrians walking purposefully along textured urban pavement. The pedestrians are fashioned in a sober, utilitarian style. The viewpoint is angled upward toward an overhead structure, creating a sense of movement and depth. The focus is on the moving legs and torsos of the crowd, with faces partially obscured or in profile. The harsh, high-contrast lighting casts strong shadows and highlights, emphasizing the texture of the street.
1990年代、明るいセピアのストリート写真。ローアングルで、質感のある都市の舗道を目的意識を持って歩く多様な歩行者を撮影。歩行者のファッションは地味で実用的なスタイル。視点は頭上の構造物に向かって上向きに角度をつけ、動きと奥行きを感じさせる。群衆の動く足や胴体に焦点を当て、顔は部分的に見えないか横顔になっている。厳しくコントラストの強い照明が強い影とハイライトを投げかけ、通りの質感を強調している。
6. LoRA用のデータを一瞬で生成する
LoRA (Low-Rank Adaptation)は、AIモデルを効率的に微調整するための技術です。特に、大規模なAIモデル(例えば、画像生成AIやLLM)を特定の用途に最適化する際に、少ない計算リソースで高い精度を維持できる方法として注目されています。LoRAを使って統一性のある独自の独自のモデルを作成する手法はMidjourneyなどで広く活用されています。
私はdzineの「Create Your Own Style」の「Pro Style」という「Style Learner」機能を使用しています。これはLoRAのようにユーザーが独自のスタイルをトレーニングできる機能で、3~10枚の画像を使ってAIモデルを微調整します。これにより、キャラクターの一貫性=独自の視覚スタイルを維持することが可能になります。
この「Style Learner」を有効にするためには複数枚の同一キャラクターのデータが必要です。そこで下記のプロンプトを作成して9枚の画像を一気に生成、Lightroom Classicの画像強化を経てPhotoshopのニューラルフィルター → スーパーズームでアップスケール、ノイズ除去後に9枚の独立したデータを「Pro Style」に学習させようというわけです。もっと効率的な方法があるのでしょうが、結構面倒な作業を楽しんでいます。

Imagen3 – ImageFX
A grid of black and white portraits of a asian-woman with long, flowing dark hair, featuring nine distinct panels showcasing various expressions and poses, including a joyful laugh with hand near face, a serene look with hand on cheek, hands covering mouth while smiling, a downward glance with hand near face, and a warm smile, presented in a clean, studio-like setting with soft lighting, capturing a range of emotions and interactions with the camera.
流れるような長い黒髪のアジア人女性のモノクロポートレートがグリッド状に並んでいる。9つのパネルがあり、顔に手を近づけて楽しそうに笑う、頬に手を当てて穏やかな表情をする、口元を手で覆いながら微笑む、顔に手を近づけて下を向く、温かな微笑みを浮かべるなど、さまざまな表情やポーズが、スタジオのような清潔な環境と柔らかな照明の中で表現され、さまざまな感情やカメラとのやりとりが捉えられている。
7. ハッセルブラッド中判カメラで、昭和の日本映画の時間の流れを再現

Imagen3 – ImageFX
Portrait of a 1940s, 45-year-old, Japanese actress in a kimono with delicate geometric patterns, Hasselblad Medium Format, 35mm lens, f/1.4, shallow depth of field, photorealistic, ISO/100, film photographic grain,
Natural portrait of an actress from the past, telling gaze. The body is lying on the tatami mats. Delicate hands, the shape of the arms is not lost. The dark, soft light through the shoji screens, the beautiful texture of the tatami mats.
繊細な幾何学模様の着物を着た1940年代、45歳、日本人女優のポートレート、ハッセルブラッド 中判で撮影、35mmレンズ、f/1.4、被写界深度が浅い、写実的、ISO/100、フィルム写真のような粒子感,
往年の女優のナチュラルなポートレート、語りかけるような視線、畳の上に体を横たえている。繊細な手、腕の形状が崩れないように。障子越しの仄暗く柔らかい光、畳のテクスチャーを美しく。
今後の展開
Imagen4がいつ公開されるのか、2025年5月15日の時点では確かな情報は得られていません。近い将来、場合によっては今月中かもしれません。公式リリースされ次第、詳しい情報をこのサイトでもお知らせいたします。
投稿者プロフィール

- こんにちは、AKIRA Obataです。私はAI技術を活用して、独自のデジタルアートを創作するアーティストです。テクノロジーとクリエイティビティの交差点で、新しい表現の可能性を探求しています。『aigenart』は、私の作品やアイデアを世界に発信する場であり、AIがもたらす美しさや驚きを皆さんと共有したいと考えています。