Googleがnano-bananaとしてティーザームーブをかましていた、新しいAI画像生成モデルが、Gemini 2.5 Flash Imageとして公開されました。これまでとは次元が違う、参照画像とプロンプトによる編集機能が話題となっています。
このAIは、「奇跡の一枚」「残念な一枚」をさらになんとかできる可能性を秘めています。
写真は一期一会、その時、その場所で、その人を、完璧なタイミングで撮っていたら、それが奇跡の一枚となって人生を変えてしまう可能性だってあります。
じゃあそれ、一枚だけなの? 別アングルから撮ったらどうなるのかな? 顔をアップで撮ってたらよかったのに。そう思った経験はないでしょうか?
失敗した「残念な一枚」についても、全体的にピンボケで、構図はいいんだけど、表情がよくわからない。同時期の顔が鮮明に写ってるのはあるんだけど、合成はできないしなあ。
そんなケースに使えるツールは、これまでたくさん登場してきました。Photoshop、Remini、Topaz、ChatGPT、Grok、Whisk。筆者はこれらを試してきて、それなりに効果が得られたものの、万能ではありませんでした。
モノクロ写真をカラー化する早稲田大学の技術で驚いたのは9年前。
Reminiを使った超解像化は今でも使っています。
それでも残念なままで終わっている写真の一つが、大学時代にやっていたバンドの演奏風景です。
1982年、MIDIが一般公開される前、DTMという言葉も生まれていなかった頃に、8bitコンピュータとデジタルシーケンサーによってアナログシンセサイザーを動かし、それに合わせて演奏していました。

手前にはSharp MZ-80K2E、その奥にはAMDEK CMU-800が見えます。背中を見せているのは自分で、右側で歌っているのは後の妻。
歌っているところのクローズアップ写真が欲しいと、 AI超解像サービスのReminiでもやってみたのですが、元がピンボケしすぎていてうまくいきません。
実は、このときの演奏はカセットテープに残っているので、組み合わせて当時の演奏や歌唱風景を再現できたら、歴史的な価値があるのではないかとずっと考えていました。
Gemini 2.5 Flash Imageならば、顔がくっきり写っている画像をレファレンスとして一緒にアップロードしてディテールまで生成することが可能です。
ChatGPTやGrokでも似たようなことはできますが、ChatGPTは顔が変わってしまいますし、Grokはプロンプトの指示に従ってくれないことが多いのです。Geminiの新しい画像生成エンジンは、キャラクターの一貫性が高く、プロンプトでの指示がよく通ると評判。さっそく使ってみることにしました。
この当時の写真でうまくピントがあった顔のアップとしては、その1年後くらいに、自室で撮影したものが何枚かあります。
その中に、自分的に「奇跡の一枚」的な写真があり、それを別角度から見たい、という希望もあったので、このときの何枚かの写真からベストテイクを生成し、それをレファレンスとして使ってみようと考えました。
![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() |
素材として使うのには邪魔なものもあります。猫と自分は消去してしまいましょう。

消しゴムマジック不要。猫を持った手がそのまま残ることなく、自然な感じに。これで、素材としても使える画像になりました。
これらを元にして、同じ時間、同じ場所で撮ったような、新作の写真ができ上がりました。ネガには残ってたけど、紙焼きしてなかった、みたいな。
![]() | ![]() |
![]() | ![]() |
本人らしさが出た美人に撮れています。素材は揃いました。
次は、演奏シーンの再現です。
![]() | ![]() |
演奏シーンと、レファレンスの顔写真を提示し、「この女性がステージで歌っているベストショットを、クローズアップで、顔にフォーカスしたベストショットで撮って」と指示。
出来上がった画像にさらに注文をつけます。

ただ、これでもオリジナルの写真とは離れてしまっています。あの日、あの時の写真としては再現度が足りません。このくらいまでは以前の技術でもできてたんですよね。
より再現度を高めるために、さらに注文をつけます。
「これまでの素材をもとにして、この写真を高精細にしてディテールを補い、クローズアップのベストショットにして」「女性の顔にフォーカスがピッタリ当てられた写真を再構成して」の指示で、目的であった、歌っている顔アップ画像に辿り着きました。

アングルを変えた画像も生成してみました。
![]() | ![]() | ![]() | ![]() |
これらをマルチフレームにして、Midjourneyで動画を生成してみました。けっこう自然。

このとき演奏した音楽を再現する短い動画も作ってみました。
音源は、オケだけを収録した4トラックのカセットMTRが残っていたのを取り込み、自分のボーカルと妻音源とりちゃん[AI]を加えたものです。
苦節13年、長年の夢がかないました。
不可能だったことを可能にするという意味で、nano-banana改めGemini 2.5 Flash Imageは、大きな進化を遂げました。
今回はGemini AI Studioを使いましたが、Geminiアプリや、APIを使った各種ソフト・サービス(Adobe Fireflyなどを含む)がすでに対応しているので、ユーザーインタフェースの工夫も含めて、比較・検討していきたいです。