ソーシャルメディア・フィード上の画像の分類やタグ付け、写真・動画内の物体や顔の検出、画像の関連要素の強調表示など、コンピュータービジョン・システムはいたるところで使われている。しかし、コンピュータービジョン・システムにはバイアスが多く含まれ、画像に黒人や褐色人種、女性が写っている場合は正確さが下がる。そして、もう一つ問題がある。それは、研究者がこうしたシステムのバイアスを発見する現在の方法は、それ自体が偏っており、人間に存在する複雑性を適切に考慮せずに、人々を大まかなカテゴリーに分類しているということだ。
ソニーとメタの研究チームによる2つの新しい論文は、人間の豊かな多様性をより完全に捉えるために、コンピュータービジョン・システムのバイアスの測定方法を提案している。この2つの論文は、10月2日から6日にかけて開催されるコンピュータービジョン会議「ICCV(国際コンピュータービジョン会議)」で発表される予定だ。開発者はこれらのツールを、データセットの多様性をチェックし、より優れた多様性に富む人工知能(AI)訓練用データの作成に役立てることができる。さらに、生成AI(ジェネレーティブAI)によって生成される人間の画像の多様性測定にも使用できるかもしれない。
従来、コンピュータービジョンにおける肌の色のバイアスは、明るい肌から暗い肌までの尺度である「フィッツパトリック・スケール」を用いて測定されてきた。フィッツパトリック・スケールは、もともと白人の肌の日焼けを測定するために開発されたが、その後、民族性を判断するツールとして広く採用されるようになったと、ソニーのAI倫理研究者であるウィリアム・トン博士は言う。たとえば、肌の色が明るい人と暗い人に対するAIモデルの正確さを比較することで、コンピューター・システムのバイアスを測定するのに使われている。
しかし、人の肌を1次元の尺度で表すのは誤解を招くと、ソニーのAI倫理担当グローバル本部長であるアリス・シャン博士は言う。たとえば、この粗い尺度で人々をグループに分類することで、欧米のAIデータセットに十分に含まれておらず、明るい肌と暗い肌の両方のカテゴリーに該当する可能性があるアジア人に影響するバイアスが見逃されてしまう。また、人の肌の色が変化するという事実も考慮されていない。たとえば、アジア人の肌は年齢とともに暗く黄色くなる一方、白人の肌は暗く赤くなると研究チームは指摘する。
トン博士とシャン博士の研究チームは、肌色の尺度を2次元に拡張し、肌の色(明るい色から暗い色まで)と肌の色相(赤色から黄色まで)の両方を測定するツールを開発。MITテクノロジーレビューに独占公開した。ソニーはこのツールをオンラインで自由に利用できるようにしている。
トン博士は、ブラジルのアーティストであるアンジェリカ・ダスにインスパイアされたと言う。ダスの作品は、同じような背景を持つ人々が、実に多様な肌の色を持っていることを示している。しかし、あらゆる肌色を表現することは斬新なアイデアではない。化粧品業界は何年も前から同じ手法を使ってきた。
「ファンデーションの色合いを選んだことがある人なら、肌の色が明るいか暗いかだけでなく、暖色系か寒色系かも重要であることを知っているはずです」とシャン博士は言う。
ソニーの肌の色相に関する研究は、「人々が見落としてきた、欠けている要素に対する洞察を提供してくれます」とコンピュータービジョン・モデルのバイアスについて研究しているライス大学のグハ・バラクリシュナン助教授は話す。
バイアスの測定
現在のところ、研究者がコンピュータービジョンのバイアスを測定するための一つの標準的な方法がないため、システム同士を比較することが難しくなっている。
メタは、バイアスの評価を合理化するために、分類、検出、セグメンテーションなど、さまざまな一般的なタスクに使用できる、コンピュータービジョンモデルの公平性を測定する新しい方法「ファセット(FACET:Fairness in Computer Vision Evaluation、コンピュータービジョン評価の公平性)を開発した。メタのAI研究者であるローラ・グスタフソンによると、ファセットはさまざまなコンピュータービジョン・タスクを含む初めての公平性評価であり、他のバイアスツールよりも幅広い公平性測定基準を取り入れているという。
ファセットを開発するため、メタは自由に利用できる3万2000枚の人物画像のデータセットを用意した。そして、世界中から作業者を雇って、見た目の年齢、肌の色、ジェンダー、髪の色や質感など、13の異なる視覚的属性で画像にラベルを付けるように依頼した。さらに、美容師、スケートボーダー、学生、ミュージシャン、体操選手など、その人が何をしている人か、どんな職業に就いているように見えるかに基づいたラベル付けも頼んだ。これにより、バイアス評価にニュアンスと正確さが加わると研究者チームは言う。
メタは次に、ファセットを使用して、異なるグループに属する人々に対するいくつかの最先端のビジョンモデルの性能を評価した。その結果、グループによってモデルの性能に大きな差が出ることがわかった。たとえば、こうしたモデルは、ドレッドヘアやクセ毛の人であっても、肌の色が明るい人をよりうまく検出した。
「世界中の人々が、他人の画像を評価する際に自身のバイアスを持ち込んでいます。そのため、地理的に多様なアノテーター(ラベル付けをする作業者)を採用するメタの取り組みは評価できます」と、プリンストン大学の博士研究員で、コンピュータービジョン・モデルのバイアスについて研究しているアンジェリーナ・ワンは言う。
メタがデータをオンラインで自由に利用できるようにしたことも、研究者の役に立つだろう。データに注釈をつけるのは非常にコストがかかるため、実際にそれをできるのは大規模なテック企業だけだ。「これは歓迎すべきことです」とバラクリシュナン助教授は話す。
しかしワン博士は、これらのシステムがどれだけの影響を与えることができるのかについては、現実的に考えた方が賢明だと警告する。これらのシステムは、AIに変革をもたらすというよりは、むしろ小さな改善につながる可能性が高いだろう。
「人間が自分自身をどのように表すかを実際に捉えるものにはまだほど遠く、おそらくそれに到達することはないでしょう」とワン博士は言う。