ChatGPT-5 特に画像生成の改善点

2005/8/7 ChatGPT-5が登場しました。これまでは4o, o3など用途に応じて使い分けが必要でしたが、ひとつに統合され、公式サイトには「推論とチャットを単一システムに統合した、当社の最高性能モデルです。」と書かれています。以下、公式の発表をご確認ください。

GPT-5 のご紹介
https://openai.com/ja-JP/index/introducing-gpt-5

Seaside Cloadworksでは、企画から画像生成などで簡単なプロンプトを投げては、反応を得ている程度の使い方ですが、特に画像生成については全体的にお世話になっています。その為、ChatGPT-5になって画像生成がどのように進化したのか、本人に聞いてみました。

ChatGPT-５での画像生成は何が進化したのか?

上記公式の資料には説明がなかったので、ChatGPT-5自身に聞いてみました。以下、答えです。
本人の答えらしく私と書いてありますので、本当だと思います。

ChatGPT-5（私）の画像生成まわりの違いは、以前のモデル（GPT-4系）と比べて以下のような改善点があります。

1. 認識と生成の統合がより自然に

以前は「画像を読むモデル」と「画像を生成するモデル」が分かれており、やり取りの中で切り替えが必要なこともありました。
ChatGPT-5では、画像理解（解析）と画像生成（描画）のやり取りがシームレスになり、1回のやり取りで画像を読み込み → 内容を理解 → 必要なら加工 → 新しい画像を生成という流れがスムーズになりました。

2. 指示理解の精度向上

複雑な構図や細かいスタイル指定（例：「夕暮れの光が差し込む木造カフェの中で、猫がピアノを弾いている様子を油絵風で」）でも、意図通りに反映しやすくなりました。
前は曖昧になりがちだった構図の位置関係・雰囲気の再現がより忠実になっています。

3. 高解像度と細部描写の強化

出力画像の解像度やディテールが向上し、小物や背景のテクスチャまで表現力が増しました。
これにより「拡大してもぼやけにくい」画像を作れるようになっています。

4. 編集機能の柔軟化

生成済み画像に対して「一部を差し替える」「色味だけ変える」「背景だけ消す」といった**部分編集（inpainting / outpainting）**がより自然な合成で可能に。
これまでよりも既存画像の雰囲気を壊さずに改変できるようになりました。

5. スタイルの一貫性と再現性

同じキャラクターや構図を複数枚の画像にわたって同一の雰囲気・人物で再現するのが得意に。
シリーズ作品や漫画的な連続カットの作成がやりやすくなっています。

実際に少し試してみた印象

これまで元の絵を与えて、プロンプトを日本語で与えて（プロンプトがそもそも曖昧なのかも）出てきた画像が、何かがおかしい（手の形）、なんか違うなどもありましたし、手前の人間はよいが後ろの背景は粗いというのもあり、何度も試しては良いものが出るまで繰り返していました。

今回、綾瀬さんと本田さんを使い、それぞれ一発で以下の絵を出せました。精度が上がっている印象を感じます。

① 二人の歩いている連続カット作成

プロンプト
この二人を使って、海辺を散歩しているような連続カットを作れるでしょうか。少し風があり髪や衣服が少しなびくような、ところもあるとよいと思います。

本田さん（左）は何となく元の画像のままの姿勢ですが、顔の向きがが自然ですし、綾瀬さん（右）は手の振り方や顔の向きなど非常に自然です。手足の数もあっているし、すごく良いと思います。そもそもプロンプトが粗いのに精度はよいと思います。

② 二人のハグ

プロンプト
二人が正面からハグしていて目線はカメラ側に向いている様子。バストショットで背景を透過してください。表情は柔らかく微笑んでいる感じで。

細かな指示はしていませんが、結構自然に思います。手も指も自然に思いますし、変にいやらしくなったらどうしようと思いましたが、健康的な感じに留まり安心しました。本田さんは前の画像と表情は変わりませんが、綾瀬さんは口を閉じており多少の変化も見えます。安定感が前とは全然よくなっていると思われます。いいですね。

まとめ

まだこの２枚しか生成していないのですが、安定感を感じています。これからもっと使って実感したいと思います。また、画像しか試していないのでChatGPT-5の推論などの賢くなった部分も今後実感していきたいと思います。これは期待大です。