科学者が初めてヒトゲノムの配列を解読してから約15年経ったものの、人間の生命を符号化した膨大な量のデータを読み解くことは依然として手ごわい挑戦のままである。だが、これはまさに機械学習が得意とする種類の問題でもある。
グーグルが提供する「ディープヴァリアント(DeepVariant)」と呼ばれるツールは、最新の人工知能(AI)手法を使用して、シーケンシング・データからより正確な個人のゲノムの図を作成する。
ディープヴァリアントは、ハイスループット・シーケンシングで読み出したデータを、完全なゲノムの図へと変換してくれる。シーケンシング・データ内の小さな挿入や欠失突然変異、単一塩基対突然変異を自動的に識別するのだ。
ハイスループット・シーケンシングは2000年代に広まり、ゲノム・シーケンシングが以前よりも利用しやすくなった。しかし、こうしたシステムを使っても、ゲノム全体の限られた部分について、エラーを含むようなスナップショットしか得られなかった。科学者らにとって、シーケンシング過程の途中で生成された無作為なエラーと、小さな突然変異を区別するのは通常困難な技である。ゲノムの反復が多い部分では特にそうだ。しかしこれらの突然変異は、がんなどの病気に直接関係している可能性があるのだ。
ハイスループット・シーケンシングの読み出しデータを解析するために、「GATK」、「ヴァーディクト(VarDict)」、「フリーベイズ(FreeBayes)」といった多くのツールが提供されている。しかし、これらのソフトウェア・プログラムは通常、比較的単純な統計と機械学習の手法を使用して読み出しのエラーの除外を試み、突然変異を識別する。
「困難な点の1つは、ゲノムのいくつかの難しい箇所にあります。これらの箇所にはそれぞれのツールが強味と弱点を持っています」と、ハーバード公衆衛生大学院の研究科学者であり、ディープヴァリアントの開発に貢献したブラッド・チャップマン博士は話す。「これらの難しい領域は、臨床シーケンシングにとってますます重要になっています。複数の方 …