トレジャーデータ(Treasure Data)の創業者の1人であり、同社チーフアーキテクトを務める古橋貞之は、2021年、「Innovators Under 35 Japan (35歳未満のイノベーター)」の1人に選ばれた。トレジャーデータは2018年に半導体設計大手のアーム(ARM)によって買収された企業として知られているが、その後2021年にアーム傘下から外れ、現在は独立した事業者となっている。
トレジャーデータは、カスタマー・データ・プラットフォーム(CDP)をサービスとして提供する企業だ。CDPは、顧客の購入履歴や広告閲覧履歴、SNSの投稿など多種多様なビッグデータを収集・分析し、企業がマーケティング・販売促進に生かすための基盤となる。
トレジャーデータのCDPは、大規模分散データベース「PlazmaDB」、IoT・車載機器などさまざまなシステム/デバイスからデータを収集する「Fluentd」、異なる環境のデバイス間でも高効率でメッセージ交換するためのプロトコル「MessagePack」、大容量並列データ転送ソフトウェア「Embulk」など、いくつかの分散データ処理技術で構成される。これらを一手に開発したのが古橋だ。
リアルタイム化、LLMの活用に取り組んだ2年間
IU35の受賞から2年半の間に、古橋が力を注いだことは2つあるという。1つは、トレジャーデータCDPへのリアルタイム機能の実装、もう1つは大規模言語モデル(LLM)、いわゆる生成AIを用いてCDPの利用をアシストする機能の開発だ。
トレジャーデータのCDPは数億人の顧客データを扱うが、データの更新は従来バッチ処理で実行されていた。例えば、過去にどのような顧客がECサイトや実店舗を訪れ、どこから来たのか、どのような行動の末に商品を買ったのかを解析する上では、バッチ処理でも十分だった。
だが、「今まさに」店を訪れている顧客の行動を追跡し、その顧客の興味・関心を解析してその場で顧客の興味に合う商品を勧める、といったアクションを実行するには、バッチ処理では間に合わない。それが、2023年発表のリアルタイム機能の実装によって可能となったのだ。
「過去の購買履歴データから顧客の行動パターンなどをあらかじめ機械学習しておき、リアルタイムの顧客の行動と照らし合わせてアクションを実行する、というように組み合わせて使うことも可能になります」。
LLMを使ったアシスト機能は、こうした高度な機能の活用を支援するものだ。
「顧客の『今』の行動にリアルタイムに反応するには、どのような条件を満たした時に、どう反応するかのパターンをあらかじめ定義しておく必要があります。ただ、精度を高めようとすると何百、何千というパターンを定義しなければならず、人がやるのは難しい。それをLLMにアシストしてもらおうと考えました」。
「タンポポ地図」のために初めて実用的なプログラムを書いた
古橋がプログラミングに興味を持ったのは高校生の頃。地元の愛知県で古橋が通った高校は、文部科学省によるスーパーサイエンスハイスクール(SSH)の指定校だった。その高校では、SSH指定校らしい活動の場として「スーパーサイエンス部」を作り、古橋はそこへ入部した。
そこで古橋が取り組んだのは、「タンポポ地図」の作成だった。タンポポには日本の在来種や西洋から入ってきた外来種、雑種などいろいろな種類があるが、在来種は田園部に、外来種は都市部にというように、種類によって生える場所が異なる。
「自転車で走り回ってタンポポを集めました。タンポポの種類と採取場所のGPS座標を記録し、それを元に分布をヒートマップで可視化したんです」
これを1度だけでなく継続的に実施することで、都市化の進み具合を可視化した。ただ、当時使っていたデータを地図化するソフトウェアが使いにくく、座標がズレるなど不正確な挙動も度々起きていた。
「そこで、代わりになるソフトウェアを自分で開発したんです。僕が実用的なプログラムを書いた最初の経験でした。『プログラミングって、こんなふうにちゃんと動くものが作れて、役に立つんだ』と実感しました」。
その後、古橋は筑波大学第三学群情報学類へ進学する。大学では、高校時代に開発したシステムを発展させ、DVDなどのメディアからコンピューターをネットワーク経由で起動する、統合ディスクレスネットワーク基盤システム「VIVER」を開発した。この実績で、独立行政法人情報処理推進機構(IPA)主催の2006年度上期未踏ユース部門でスーパークリエータに認定されることになる。
大規模データを誰もが使える世界をつくる
「高校、大学時代の活動を通じて、複数のコンピューターでデータを持ち合う分散技術の必要性を痛感しました。思えば僕は、『タンポポ地図』のときからずっとデータを扱っているんですよね。高校、大学時代の活動を経てそこから分散データ処理に進むのは、自然な流れでした」。
その後、古橋は筑波大学大学院の修士課程に進む。修了を前に渡米し、現取締役会長の芳川裕誠、現CEOの太田一樹らと共同でトレジャーデータを創業した。
「最初はビッグデータをやりたかったんです。当時はグーグルやアマゾン、フェイスブック、アップルなどの巨大IT企業がデータを独占していると言われていました」。
これは良いことではない。ビッグデータを限られた企業だけでなく誰もが扱える状況にすることは、社会的にも価値があると同時に、会社にとっても良いだろう。トレジャーデータの創業はそのような試みとしてスタートした。
「データを分散環境で保存する技術はPlazmaDB、収集する技術はFluentdで実現できた。あとは、ビッグデータを上手く扱う技術、つまりアプリケーションが必要だ、と。ビッグデータを扱うことで一番価値を発揮できそうだったのが、CDPの領域でした」。
トレジャーデータのCDPは、今や世界の有名企業のマーケティング活動に活用されている。また、古橋が開発したCDPのコア技術であるFluentdやMessagePack、Embulkといったソフトウェアはオープンソースとして公開され、広く使えるようになっている。ビッグデータを扱う技術は、もはや巨大IT企業が独占するものではなくなった。
ソフトウェアはより多くの人に使われてこそ
今、古橋はきちんと「使える」かつ「運用できる」ソフトウェアをつくらなければいけないと強く感じているそうだ。
「技術的に面白いから」という理由で大学時代に始めた十数にも及ぶオープンソース・プロジェクトは、MessagePackを除いてほとんど使われず、何も残っていません。仕方のないことだけれど、ソフトウェアにとっては悲しい」。
そこから、ソフトウェアが「使われる」ためには、そのもの自体が良いだけでは不十分だと学んだ。
「ソフトウェアの良さを人に説明することが必要だし、改善するにもどこをどう改善していいのか分からない。そうした問題を1人で解決するには限界がある。トレジャーデータでは営業やカスタマーサポートを通じて入ってくるユーザーからの膨大なフィードバックがあります。『使える』ソフトウェアを作る上で、できることが広がりました」。
古橋は、トレジャーデータのCDPが持つ能力、秒間数百万件のデータを処理し、地球上の全人口のデータを一度に扱えるほどの能力が、十分に使い切れているケースがまだ少ないと考えている。
「ビッグデータにせよLLMにせよ、何にどう使うのかというアプリケーションの部分を考えることが実は難しいしんですよね。これからは、使い道・使い方にも踏み込んで研究して、提案していかなければ」と話す古橋。自分の手がけるソフトウェアがより多くの人々に使われ、価値を提供すること、役に立つことにプログラマーとしての存在意義を見いだしている。
◆
この連載ではInnovators Under 35 Japan選出者の「その後」の活動を紹介します。バックナンバーはこちら。