ChatGPT 5.2 画像認識力向上

このところの生成AIの画像生成の能力がどんどん高まっていますが、一つの画像の中に一貫性を保って表現できるのは２名程度が限界だと思っていましたが、ChatGPT 5.2になりかなり認識がされるようになったと思います。

具体的には、SCWには以下の８人とスクエラというマスコットがいます。

Charactors

2.5より前のGeminiで集合

この面々をまとめて生成したいのですが、2.5より前のGeminiを使ってできていたのは以下のような絵です。右の二人は元の絵柄に忠実ですが、他の面々は服装や持ち物は近しいもの顔や髪型は再現できていませんでした。

GeminiやChatGPTでいろいろと試した結果、二人までは一貫性を保ちやすいと分かりました。プロンプトの書き方でもっと改善できた可能性はあるかもですが。

ChatGPT 5.2が出る前に、Nano Bananaでかなり一貫性を保った画像生成もできるようになってきましたが、ChatGPT 5.2がでてきて一気にさらに良くなったように感じます。ChatGPT 5.2での集合画像がこちらです。

かなり元絵に忠実で、右から二人に目の白石さんはもう少し男っぽく、背も高い設定ですが、幼く描かれています。
身長の設定を入れていないのでデコボコは仕方ないですが、一発でこれが出たのは驚きました。ただ、この後白石さんを見直そうと努力しましたが、修正ができませんでした。

かなり一貫性を維持して描けることも分かり、今後もっと活用していきたいと思いました。

2026年も生成AIの進化に驚かされつつも、ついていきたいと思います。