2005年——アップルの「シリ(Siri)」やアマゾンの「アレクサ(Alexa)」が登場する数年前のことだ。スキャンソフト(ScanSoft)とニュアンス・コミュニケーションズ(Nuance Communications)という2社のスタートアップ企業が合併し、音声認識の分野で急成長を遂げていた。この新会社(社名はニュアンス・コミュニケーションズが継続された)は高性能な音声処理ソフトウェアを開発し、10年近くにわたって年平均27%の売上成長率を達成していた。しかし、2014年頃に突然、成長が止まってしまった。2019年の収益は、2013年とほぼ同じだった。ニュアンスには、かつて同社のパートナー企業だった大手コンピューター企業が競合企業となるなど、逆風が吹き荒れていたのだ。
ニュアンスの話は決して特別なものではない。すべての主要な産業やテクノロジー関連の領域において、スタートアップ企業はかつてないほどの試練に直面している。革新的な機会を利用して新たなスタートアップ企業が依然として次々と誕生している。これらのベンチャー企業は今、異常なほどの数のベンチャーキャピタルを利用できる。しかし、スタートアップ企業を取り巻く経済はすべてが順調というわけではない。現在の革新的なスタートアップ企業は、過去の同種の企業に比べて成長のスピードははるかに遅くなっている。
意外なことに、その主な原因はテクノロジー、とりわけ、業界を支配する巨大テック企業が持つ独自の情報技術にある。人々は、テクノロジーが破壊(ディスラプト)を引き起こすという考えに慣れている。つまり、小さな新しい企業がイノベーションによって成長し、最終的には生産性の低い古い企業に取って代わる、というものだ。しかし、特定の企業のみが占有する独自のテクノロジーは、業界における企業間の入れ替わりを抑制し、過去20年間で急激に減少している。このようなダイナミズムの喪失は、米国経済に広く悪影響を及ぼす。産業界に企業間の入れ替わりが起こらないため、革新的な企業の成長を妨げているのだ。研究者らは、革新的企業の成長の鈍化を、個人所得に至るまでの経済全体に影響を与える生産性の向上の大幅な鈍化と関連づけている。
ニュアンスは1994年に、米国政府のために音声認識技術を開発していたスタンフォード大学の研究所である「スタンフォード研究所(SRI)」から独立して創業した。スキャンソフトはゼロックスのスピンオフ企業だった。2005年に両社が合併する以前は、音声認識システムの性能はコンピューターの処理能力により制約されていた。音声認識システムは限られた語彙しか認識できなかった。とは言うものの、電話によるカスタマーサポートセンターや医療記録の転写など、狭い範囲の商業用途には有効であった。
2000年代後半になると、状況は一変した。コンピューターの処理性能が向上したことで、ニュアンスは大きなイノベーションを起こすことができた。それが「大語彙連続音声認識 」である。今では、どのような話題でも、どのようなことを言っても、音声認識テクノロジーでリアルタイムで正確に文字に書き起せる。ニュアンスは、このテクノロジーを「ドラゴン・ディクテーション(Dragon Dictation)」という音声認識アプリに採用した。アップルは2009年の世界開発者会議(WWDC:Worldwide Developers Conference)」でアイフォーン(iPhone)3GSを発表した際にこのアプリも紹介した。アップルがニュアンスの商品を認めた後、サムスンをはじめとする携帯電話メーカーはこぞってこの製品を欲しがった。グーグル、アマゾン、マイクロソフトも同様だった。ニュアンスは、これらの主要顧客との契約に加え、何百万人もの消費者が同社のアイフォーン向け音声認識アプリを購入したことで急成長。アイチューンズ(iTunes)ストアのビジネス生産性アプリケーション部門でトップになった。2011年、アップルはニュアンスの音声認識テクノロジーをベースとした「シリ(Siri)」を発表した。ニュアンスの収益は、2013年に17億ドルにまで伸びた。
だが、ニュアンスの成長は束の間だった。コンピューターやクラウドサービスと人間とのやり取りにおいて、音声が主要な手段になることを認識していたのは、ニュアンスだけではなかったのだ。音声認識は、単に文字を入力するだけではなく、買い物や情報検索、音楽や映像の選択、家電製品の操作など、さまざまな場面で利用されるようになった。音声認識技術により、キーボードやマウスに比べて、すばやく、ハンズフリーで、人間にとってより自然なコミュニケーションが可能となったのだ。
大手テック企業は、この機会に大規模な資金と人材を投入し始めた。アップルは独自のシステム開発に投資し、アマゾンは音声アシスタント「アレクサ」を研究した。グーグルはこの2社にすぐに追いつき、「ホーム・アシスタント(Home Assistant)」を発表した。これらの企業は、ニュアンスの人材プールを上手に利用し、優秀な人材を自社の傘下に確保している。現在、アマゾンでは1万人以上のエンジニアがアレクサの製品開発に携わっている。この人数は、ニュアンスが最盛期に抱えていた製品の研究開発に携わる主要社員数の10倍以上にあたる。
大手テック企業は資金力に加えて、大規模な顧客基盤、補完関係にある製品、利用可能な膨大なデータなどの利点を活かすことにより、音声認識システムを継続的に改善してきた。現在、家庭に設置されているアレクサ搭載機器は3億台。グーグルでは1日平均56億回の検索が実行され、ユーザーの半数が検索に音声を使用していると報告している。アマゾンでは、第三者の開発者がアレクサに新たな「スキル」を追加するというテクノロジーのエコシステムが盛んになっている。スキル数は10万本を超え、内容も特定のラジオ局を再生したり、ジョークを言ったりと、多岐にわたっている。アマゾンはアレクサの長距離通信テクノロジーを家電メーカーにライセンス供与し、家電メーカーはこの技術を食器洗い機や洗濯機、乾燥機、掃除機などの制御に使っている。
巨大テック企業がひしめく音声認識という戦場で、ニュアンスは太刀打ちで …