中国の首都北京のクリエイティブ産業の中心地「798芸術区」にあるカフェで話していると、顧嘉唯(グー・ジアウェイ)は、スマホが発したテンセントのWeChat(中国全土で利用できるメッセージアプリ)の通知音を消した。画面を一目見て確認すると「1万7000件の未読メッセージがあった」という。顧によれば、情報テクノロジーによる人々の対話は機能不全を起こしているという。「わずらわしい通知をチェックするのは面倒です」
顧はバイドゥの秘蔵エンジニアで、最先端の「ヒューマン・コンピューター・インタラクション」のモデルを設計している。たとえば視覚障害者を支援する人工知能(AI)インターフェイスであるDuLightは、ヘッドセット付きのカメラやユーザーのスマホで、レシートや電車の時刻表、箱に貼られたラベル等をスキャンし、深層学習アルゴリズムやスマホのCPUを使って、画像内の文字を認識して音声化し、ユーザーは音として目の前にあることを理解できる装置だ。「顔認識機能の改良も進んでいます」と顧はいう。
顧の今後の構想は、わずらわしい通知等に縛られることなく人々がテクノロジーの恩恵を受けられる世界である。「人々を簡素な昔の時代に導きたい」と顧はいう。
(クリスティーナ・ラーソン)
- 人気の記事ランキング
-
- What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
- A Google Gemini model now has a “dial” to adjust how much it reasons 推論モデルは「考えすぎ」、グーグルがGeminiに調整機能
- Meet the researchers testing the “Armageddon” approach to asteroid defense 惑星防衛の最終戦略 科学者たちが探る 「核爆発」研究の舞台裏
- Anthropic can now track the bizarre inner workings of a large language model 大規模言語モデルは内部で 何をやっているのか? 覗いて分かった奇妙な回路