ニュース

Google最新スマホ「Pixel 4」の画像処理技術とは

ボケ表現、HDR、夜景撮影などに機械学習など応用

Googleは自社のスマートフォンカメラの性能向上を目的に、ソフトウェアベースの様々な処理を行う「Computational Photography」を活用している。コンピュータ能力とAIを使うことで、スマートフォンの小さなイメージセンサーとレンズでも、レンズ交換式カメラに匹敵する写真が撮影できるようになったとしている。

Google日本法人の渋谷本社で行われたテレビ会議による説明会には、米国側からGoogle ResearchのDistinguished EngineerであるMarc Levoy氏が参加し、GoogleのスマートフォンPixelシリーズに搭載されている画像処理技術について解説した。

米Google ResearchのMarc Levoy氏。テレビ会議による参加。

PixelシリーズはGoogleが開発するスマートフォンで、Googleが得意とする複数のAI技術を備えている。その代表格が写真機能。HDR+、ポートレート、超解像ズーム、夜景モードにおいてComputational Photographyと機械学習が活用されている。

Levoy氏は現在のスマートフォンカメラのトレンドとして、「ソフトウェアで定義されたカメラ」と指摘。ハードウェアによって固定された機能ではなく、ソフトウェアによって拡張できるシステムで、代表例として「連写合成を使ったComputational Photography」を挙げる。

HDR+機能は、Computational Photographyと機械学習を活用した成果の1つ。典型的な連写合成によってダイナミックレンジを拡張するHDR機能だが、一般的には異なる露出の写真を撮影して合成する。

露出を変えずに連写した画像を合成するHDR+。

しかし、異なる露出だと各画像間の整合性をとるのが難しく、手ブレ、被写体ブレ、ノイズなど様々な要因で合成を正確に行ないづらくなる。そのためPixelのHDR+では、同じ露出の写真を連写で生成することで、合成を容易に行なえるようにした。Levoy氏は、合成に特殊な技術が不要な点を「アーティファクトがいらない」と表現する。

撮影では白トビを避けるために露出アンダーの状態で連写合成する形だが、そのまま単純に合成するだけだとHDRにならない。

そのため連写合成した暗部の露出を画像処理で持ち上げる。そこでノイズが発生するが、このノイズ率は連写枚数の平方根で減少するため、9枚連写した画像であればノイズは1/3になる、という。さらに明部と暗部の輝度を圧縮するとコントラストが低下してしまうが、これを画面内で局所的にコントラストを操作することで、全体のコントラストは低下しつつ、局所的にコントラストが維持される。

ダイナミックレンジを圧縮しつつ、局所的にコントラストを高める手法。

こうした処理によって連写合成ながら低ノイズで暗所でも利用できるHDR+機能を実現したという。

HDR+で撮影した写真の例。

これを応用した機能がPixel 4に搭載されたライブHDR+だ。これはHDR+の処理結果をリアルタイムにライブビューとして表示する機能で、リアルタイムに機械学習の近似値を表示することで、HDR+と同様の表示をリアルタイムに行えるようにしたそうだ。

リアルタイムのプレビューでもHDR+で表示するライブHDR+。

これによって実現したのがデュアル露出補正機能だ。Pixel 4では、全体の露出と暗部の露出を分けて制御できるようになった。この2つの露出制御を可能にしたのは、リアルタイムにHDR+の結果を表示できるようになったからだ。

2つのスライダーで暗部と明部をコントロールできるデュアル露出補正

Pixelのポートレートモードは、背景ボケを合成する「フェイク」(Levoy氏)ではある。それでも多くのスマートフォンカメラがこの機能にチャレンジしている。Pixel 4のようなデュアルカメラでは、それぞれが写真を撮ってステレオマッチングによる視差を推定して深度マップを生成。背景を推定してボケを作り出す。

通常のスマートフォンカメラでの撮影に対し、2つのカメラを使って深度マップを作成してボケを作った画像。

Pixel 2やPixel 3のようなシングルカメラのみの場合でも、機械学習によって人を抽出することで背景と分離することができたし、デュアルピクセルセンサーであれば、それぞれのイメージセンサーで左右の写真を撮って深度マップを生成していた。デュアルピクセルのないインカメラでは機械学習だけを、マクロ撮影時はデュアルピクセルのみを使っていたそうだ。

機械学習によって被写体を分離する。
デュアルピクセルを応用して視差を取得する。
デュアルピクセルによって得られた深度マップ。
深度マップを活用した背景ぼかし。

Pixel 4の場合、デュアルピクセルとデュアルカメラの双方を活用することで、縦方向と横方向、それぞれの視差が取れるようになり、より高精度の深度マップが生成できる。これで、Pixel 3まではできなかった大きな被写体でも背景ボケが作れるようになり、髪の毛などの分離も高精度にできるようになったという。

また、2〜3mの距離にいる人物は、デュアルピクセルによる視差では差が分かりづらく、デュアルカメラならカメラ間が13mm離れているので深度が得られる、とLevoy氏はいう。

なお、こうしたComputational Photographyベースのボケの場合、大口径レンズのボケ量でもピントの合う範囲が広い(被写界深度が深い)、という写真が撮影できる。被写界深度が浅くなりすぎないため、「大口径レンズを使うよりも初心者がいい写真を撮れる」とLevoy氏。

背景のボケは大口径レンズ並みだが、人物の目から鼻、耳までといった深い被写界深度でピントの合う範囲が広い。

超解像ズームでは、ピクセルシフトによる画像補完を行なう。通常のスマートフォンカメラのイメージセンサーはベイヤー配列で、光の3原色であるRGBが各ピクセルに配置されている。そのため、1ピクセルには1色しか割り当てられていない。手持ちであれば手ブレ、三脚などに設置した場合は光学式手ブレ補正(OIS)を使ってピクセルシフトをさせ、それを合成することで、1ピクセルに3原色が含まれるようにする。

ベイヤー配列のセンサーでは1ピクセルに1色だけだが、これをピクセルシフトなどによって全色を1ピクセルに取り込めるようにする。

これによって、より先鋭な画像が得られるようになり、Levoy氏は光学2倍のレンズに等しい画質になる、と主張。Pixel 4は光学2倍のレンズを備えているため、これが4倍相当になる、という。「1〜4倍のズームレンジのスマートフォンカメラではベストではないか」とLevoy氏。撮影後に画像を切り抜くよりも、こうしたComputational Photographyによる処理の方が高画質のため、Levoy氏は「クロップよりも(撮影時に)ピンチズームをした方がいい」とアドバイスする。

実際の画像。右の気球がPixelでより鮮明な画像。一番右はゴールデンゲートブリッジを離れた場所からズームで撮影したもの。
単なるクロップよりも超解像ズームの方が高画質になる。

Pixel 3やPixel 4では最大8倍までの超解像ズームをサポートしているが、それ以上になるとLevoy氏は難しいという判断を示す。50倍ズームのような超望遠に関しては、「機械学習ベースでは幻想のようなフィーチャー。画質がよくないので、今のスマートフォンでは実現できない」と指摘する。

また、望遠側は超解像ズームに任せて広角レンズの搭載を図る方向性もありそうだが、Levoy氏はユーザーの利用状況から広角レンズよりも望遠レンズが多用されている現状があるため、望遠レンズを搭載した、としている。

夜景モードでも画像合成が活用される。特に天体写真で星を撮影する場合、数分レベルの露光時間だと星が動いてしまい軌跡を撮影することになる。そのため、最大16秒までの露光時間の15枚の写真を撮影して合成する手法を搭載。これによって、最大4分間の露光時間ながら、天体写真が撮影できるようになった。

ハワイで撮影したという天体写真。
最大16秒・15枚の写真を合成して実現。

この露光時間は各フレームで固定されておらず、動くものがあれば露光時間を変えて撮影。これによって、風に動く木の葉を止めつつ、明るい天体写真が撮れる。こうした合成技術は、HDR+や超解像ズームで使われていたものだ。

動く被写体があっても露光時間を変動させることで被写体ブレがなく夜景撮影が可能。

ホワイトバランスにも機械学習を反映。雪の写真が青被りしていた場合、人間は知識として雪が白いと分かっているので白く補正できる。こうし学習を数多くの正しいホワイトバランスの写真から行っていくことで、様々なシーンで正確なホワイトバランスを実現した。

多くの正しいホワイトバランスの写真を学習させることで、よりホワイトバランスが正確に。

他にもPixelには、長時間露光時に発生するホットピクセルと呼ばれるノイズも、Computational Photographyによって消去したり、通常では長時間露光で昼間のように明るくなってしまうシーンでも、絵画の表現を参考に夜は夜らしく、しかし必要な場所は明るく再現する、といった機能を盛り込んでいる。

3分間露光したデジタル一眼レフカメラによる写真だと昼間の写真のようになる。
夜に撮影した写真は夜らしく再現することを目指したというPixelの夜景写真。

こうしたComputational Photographyの成果によって、Levoy氏はスマートフォンカメラとデジタル一眼レフカメラを比較して、ダイナミックレンジ、ノイズ、夜景、被写界深度といった点で同等になったとアピールする。

デジタル一眼レフカメラに対してスマートフォンカメラがどこまで迫れたか。望遠レンズのような画角以外は迫ってきた。

そんなスマートフォンカメラでもできないことについて、Levoy氏はまず先述のように望遠レンズが難しいと話す。Levoy氏自身、今までほとんどのブランドのカメラを使ってきたものの、現在はスマートフォンカメラで撮影をしているというが、望遠レンズのためだけにレンズ交換式カメラを使っているそうだ。

そしてもう一つのできないことが、明るい月と星空を両方収めること、だと言う。こうしたシーンでは輝度差が19段、明るさにして50万倍の違いにも達するため、最高のデジタル一眼レフカメラでもカバーできない、と指摘。しかし、ここでソフトウェアで定義されたカメラが威力を発揮する。「Googleはソフトウェアをアップデートより良くしていくことにコミットしているので、お楽しみに」とLevoy氏は話している。

現時点でスマートフォンカメラがキレイに撮影できないのが明暗差の激しい月と星空の写真だという。

こうしたComputational Photographyの世界は、「偽の写真」と言われることもある。実際、Pixelが2年前にカメラ専門サイトで賞を獲ったときは「4:6で偽の写真という声が多かった」(Levoy氏)というが、Pixel 4になって、偽の写真というよりもいい写真という声が「9:1になった」(同)。こうした点を踏まえてLevoy氏は、「なぜカメラメーカーは同じことをしないのか」と指摘。Computational Photographyによって様々なメリットがあり、カメラメーカーも同様の取り組みを進めるよう主張していた。

小山安博

某インターネット媒体の編集者からライターに転身。無節操な興味に従ってデジカメ、ケータイ、音楽プレーヤー、コンピュータセキュリティなどといったジャンルをつまみ食い。軽くて小さいものにむやみに愛情を感じるタイプ。デジカメ、音楽プレーヤー、PC……たいてい何か新しいものを欲しがっている。