人間はどのように顔を認識する?
MITの研究者が2D画像から3Dモデルを生成

▲画像:研究チーム提供

私たちは目を開ければ周囲の状況をすぐに把握することができるが、脳が辺りの世界をすばやく細やかに形づくるその方法は、視覚研究における大きな謎のひとつだそうだ。

脳科学者はこれまで、視覚のコンピュータモデルを使ってこの現象を再現しようとしてきたが、今のところぼやけた背景からモノや顔を切り分けるぐらいの単純なことしかできない。

そこで、マサチューセッツ工科大学の認知科学者が率いる研究チームは、画像から詳細な場面描写を行える人間の視覚能力を採用し、いかに脳がこの作業を実現するのかがわかるコンピュータモデルを作成した。

この新しいモデルでは、脳が視覚入力を受け取ると、CGの分野で顔やモノの3Dモデルから2D画像を生成するのとは逆のプロセス(つまり、2D画像から3Dモデルを生成)で、一連の計算をすばやく実行すると仮定。

とはいえ、これだけでは不十分のようだ。というのも、人間の視覚システムではモノがそこに見えるだけでなく、姿や形、表面、テクスチャといった非常に豊かな世界も認識できるからだ。

そして、人間の脳はこの「inverse graphics(逆グラフィックス)」のプロセスを瞬時に実行できる。研究チームは特別なディープニューラルネットワークモデルを使い、例えばある顔のベースとなる特徴をすばやく判断。

2D画像からスタートして、テクスチャや曲線、明るさなどの特徴を追加していき、「2.5D」表現と呼ぶ中間段階を作成する。これは特定の視点からの顔の形や色しかもたないが、3D表現へと変換され、どの視点からみてもわかるものを作り上げるのだそうだ。End