かつてガリレオは、自然は数学で書かれていると言った。生物学はもしかしたら言語で書かれるのかもしれない。今や自然言語処理(NLP)アルゴリズムは、タンパク質配列を生成し、新型コロナウイルス(SARS CoV-2)が免疫系を逃れるに当たっての鍵となる重要な変化をはじめとする、ウイルスの突然変異を予測できるようになった。
こうしたことが可能になったのは、生物学的システムの特性の多くは単語と文章に翻訳可能だという重要な見識によっている。「私たちは進化の言語を研究しています」と、マサチューセッツ工科大学(MIT)の計算生物学者であるボニー・バーガー教授は話す。
この数年、遺伝学者ジョージ・チャーチ教授の研究室や、テック企業のセールスフォースの研究チームをはじめとする数多くの研究者らが、タンパク質配列と遺伝子コードは自然言語処理の手法を使ってモデル化可能であることを示してきた。
1月15日に「サイエンス(Science)誌」に掲載された研究において、バーガー教授と同僚らはいくつかのDNA鎖を引き合いに出して、ウイルスが人間の免疫系の抗体に検知されるのを回避する「ウイルス免疫回避」と呼ばれるプロセスを引き起こす突然変異を、自然言語処理の手法を用いて予測した。その基本となる考え方は、免疫系がウイルスを解釈するのは、人間が文章を解釈するのと類似しているというものだ。
「これまでの研究の流れを汲んだ良い論文です」。セールスフォースの科学者で、自然言語処理を用いてタンパク質配列の予測をしているアリ・マダニ博士はそう話す。
バーガー教授のチームは、文法とセマンティクス(意味論)という2つの異なる言語的概念を利用している。あるウイルスの遺伝的、あるいは進化的な適応度(宿主への感染力がどれほど強いかといった、特性のこと)は、文法的な正確性によって解釈できる。うまく感染を広げることに成功したウイルスは文法的に正しく、そうでないウイルスは文法的に誤っているということだ。
同様に、ウイルスの突然変異もセマンティクスによって解釈できる。ある環境において、外部からの見た目を変える突然変異(表面のタンパク質を変化させることで、特定の抗体からは見えなくなる)は、意味を変化させていることに該当する。異なる突然変異を起こしたウイルスはそれぞれ違う意味を持ち、異なる意味を持ったウイルスには、それを読み解くために異なる抗体が必要になる可能性がある。
こうした特性をモデル化するために、研究者らはニューラル・ネットワークの一種であるLSTM(Long short-term memory、長・短期記憶)を用いた。LSTMは、オープンAI(OpenAI)が構築した「GPT-3」のような大規模言語モデルが利用しているトランスフォーマー(Transfomer)ベースのものより前から存在するニューラル・ネットワークだ。こうした旧式のネットワークは、トランスフォーマー・ベースのものよりもはる …