写真とAI
プロンプトを駆使して“有名な写真”を再現…「生成AI」が写真にもたらすものとは?
2024年5月6日 09:00
「生成AI」が世界を席巻している。従来のAIとは異なる生成AIは、一般の企業における業務効率化やカスタマーサポートの自動化といったビジネス用途にも利用されているが、コンテンツの創作においても利用が進んでいる。その影響は写真業界にも波及しており、今後、避けては通れない技術となることは間違いない。
この連載では、生成AIがどのように写真に影響を与えるのか、それによって写真がどう変わるのかを追っていきたい。
決定的瞬間のモノクロ写真を撮影…したようにAIで生成する
冒頭の写真。「帰還した兵士と再会する女性という決定的瞬間を捉えたモノクロ時代の写真」だ。1940年代の著名な写真家の作品――というわけではもちろんなくて、生成AIによって作成された架空の写真である。
このような写真を生み出すことができるのが生成AIだ。この写真を作るために駆使したのは、日本語でどのような写真を作ってほしいかという「指示(プロンプト)」だけ。もちろんカメラもレンズも、写真の経験も必要ない。ただ、テキストを入力しただけだ。
「古い時代のモノクロ写真」としては滑らかな写真だったので、その後さらにLightroomでノイズやボカシなどの処理も入れている(過剰に見えるのは分かりやすいようにしているため)。
今回の画像はマイクロソフトのCopilotの機能の1つである「Designer」で作成した。画像のアスペクト比が1:1で生成されるため、これを3:2になるようにAdobe Photoshopの生成AI(Adobe Firefly)を活用した「生成拡張」によって背景を伸ばしている。
こうした作業を行うことで、生成AIで過去に実際に撮影されたような写真を創作できた。この写真を見て不自然に見える、リアルに感じない、写真として出来が良くないなど、様々な意見はあるだろう。ただ、それは生成AIの限界ではない。プロンプトや筆者のテクニックの問題だ。すでに現時点で、生成AIは本物の写真と見まごう写真を生み出せるようになってきている。
それはともかくとして、今回の画像生成では、「帰還した兵士と再会する女性という決定的瞬間を捉えたモノクロ時代の写真」というプロンプトからスタートした。意図的に大雑把な指示にしたが、Copilotではよく意図を理解し、第2次世界大戦の頃のようなイメージの写真を生成してくれた。
しかし写真がキレイすぎたので「1940年代の写真のように、もう少しノイジーで粗い画像にしてください。」と指示。新たに生成された画像で意図に沿うような写真があったのでこれを採用した。
実はこのあと、「35mmのライカレンズを使い、ニューヨークの街中で撮影した写真にしてください」や「もう少し離れた場所から、背景がもっと分かるように、でも大口径レンズで撮影したように背景をぼかした、1940年代のノイジーで粗いモノクロ写真にしてください」といった指示も出したが、これはあまりうまくいかなかった。
実のところ、どんなプロンプトでも応えてくれるわけではないし、希望に添わない結果になったり、明確にプロンプトを無視したりという場面も多い。文章よりも単語の羅列の方がうまくいく場合もあるし、そうでない場合もある。
適切なプロンプトの作成には反復練習が必要だし、生成された写真が優れた写真かどうかはプロンプト次第。つまりユーザー次第であり、優れた写真がどういったものかを理解していないと、凡庸な写真が生まれるだけになる。今回も「再会」という文章に引きずられたせいか、ほとんどの生成画像で「抱き合う2人」が描かれたため、凡庸な写真が多かった。
1枚だけ目を引く写真があったが、明らかに「勝利のキス」などと呼ばれて有名な写真に影響されており、生成AIの学習による問題が如実に表れていた。
生成AIが写真に与える影響
というわけで、まずは生成AIがどういったものか。
AI(人工知能)は、プログラミングによって自律的な思考を再現しようという取り組みだ。与えられた情報に対してAIが応答するのだが、決まった言葉に対して決まったルールに則って反応を返すのではなく、指示を分析して最適な反応を返すことがAIでは期待される。
例えばカメラの被写体認識機能。カメラが「猫」を認識する場合、人の目には猫に見えても、機械には鍋に入った液体に見えるかもしれない。膨大な写真の中から「猫の写真」に当てはめて同じものがあれば「猫」だと判断する、というのがルールベースだとしたら、AIでは、全く同じ写真がなくても猫っぽさを機械が推論して判断する。
これを実現したのが機械学習やディープラーニングなどの技術だ。機械学習でいうと例えば「教師あり学習」では、膨大な数の猫の写真と、それが猫であるという正解ラベルの組み合わせから学習していく。その結果、そのうちAIは猫の特徴を学習し、その写真に写っているのが猫かどうか、全く同じ写真が存在しなくても、特徴を分析して自律的に判断してくれるようになる。
写真の世界におけるAIの応用の1つが「白黒写真のカラー化」だ。元のカラー写真とそれをモノクロ化した写真を数百万、数千万、数億といった具合に大量に学習していくことで、AIは「このモノクロの部分はこの色になる」という学習をして、モノクロ写真をカラー化できるようになる。これが機械学習によるAIだ。
人間でも、同様にモノクロ写真から色を推測することはできる。ただ、「モノクロの桜の花」があったとして、それがピンクなのか、ウコンザクラの淡い黄緑色なのか、花弁だけで判断できないという人もいるだろう。大量の桜を学習したAIであれば、花弁の形状などから正確に桜の種類を見分けられる(場合が多い)。もちろん、実はその桜が「CGで作られた青い桜」だったとしたらAIでも再現することはできないが、一般的な現実に即した形で色を推測することができるようになるわけだ。
2000年代以降のAIは、機械学習やディープラーニング、ニューラルネットワークといった技術も組み合わされ、自律的に判断できるようになった。こうして作られたAIは、与えられた情報に対してより正確な答えを返すことができるようになってきている。
この被写体は猫である、このモノクロ写真の色はこうである、この連写画像のベストショットはこの1枚である――といったこともAIであれば導き出すことができる。ただ、これはあくまで「お題に対する回答」にとどまっていた。
“作り出すAI”
そうした中で登場したのが「生成AI」だ。これまでが「回答するAI」であれば、こちらは「作り出すAI」。AIがコンテンツそのものを生成できるようになったのだ。
基本的な技術は変わらない。大量のデータを学習して、そこから推論が行われて結果が返されるのだが、その結果がオリジナルのコンテンツになった点が大きな違いだ。「これは猫?」という質問に対して「猫である」と返すのが従来のAIなら、「猫はどんな動物?」と聞かれて「猫の絵を描いて説明する」のが生成AIだ。
生成AIは、人間が大量の文章を読んで独自の文章を生み出すように、何枚もの絵を描いてうまく絵が描けるようになるように、猫の特徴を認識し、それを大量に学習したデータから絵や文章を生成して説明する。学習した絵をそのまま出力するのではなく、指示にあわせて学習データから新しい組み合わせを生成している。
そのため、学習したデータを模倣するわけではないし、剽窃するわけでもないが、確実に学習したデータの影響を受けるため、冒頭の写真のように過去の作品とそっくりのコンテンツを生成してしまうことも起こりえる。今回はプロンプトから分かるとおり、そもそも「勝利のキス」を思い浮かべていて、それをどれだけ生成AIが回避するかを確認する意図もあった(ただし、同作品について実際は「再会」のシーンではない)。
Bingが採用するのは「DALL-E 3」という画像生成のためのAIだ。ChatGPTで著名なOpenAIが開発している。他にもAdobeの「Firefly」、Stability AIの「Stable Diffusion」といった具合に、複数のAIエンジンが存在し、それぞれ同じプロンプトでも異なる結果が出力される。
ちなみに、FireflyとStable Diffusionは「女性」という単語に引きずられたのか、「再会する2人の女性」を生成。Fireflyはアジア系の人物になるなど、それぞれAIエンジンによって生成される画像は異なっており、元の学習データや推論の違いがあるようだ。さらに、同じプロンプトで毎回同じ結果が出るわけでもない。
他には「イタリアの丘で新たに発掘された、紀元前の教会の遺跡の写真」というプロンプトにしたところ、Fireflyが一気に高品質な写真を仕上げてきたし、BingのDALL-E 3はあまり写真ぽくならなかった。Stable Diffusionはその中間ぐらいの仕上がりだろうか。
AIによって得意不得意があるのかもしれないが、「勝利のキス」のような模倣に近い作品が出力されるのは課題の1つだろう。そのほかにも課題はあるとされているが、生成AIが今後も市場を席巻するのは間違いないと思われる。
その中で「写真」に対して生成AIがどれだけの影響を与えるのかは未知数だ。生成AIによって写真は「撮るもの」から「作るもの」になってしまうかもしれない。逆に、生成AIが写真を進化させるかもしれない。そんな生成AIと写真の関係を、この連載では引き続き注目していく。