NIPT論文(第3章)

文献

リーフェ・パーヘ=クリスティアーエンス、ハンスゲオルク・クライン編 『非侵襲的出生前遺伝学的検査(NIPT)(副題:出生前検査・診断へのゲノミクスの応用)』(アカデミックス・プレス、2018年)の第3章の論文の翻訳(ヒロクリニックNIPT仮訳)

第3章 無細胞DNAに基づくNIPTの技術と生物情報学

南サンフランシスコ大学 デール・ミュゼイ

はじめに:シークエンシング技術の進化

 「次世代シークエンシング」(NGS)という用語を聞くと、「第一世代のシークエンシング」はどのようなものであったか、またNGSは第一世代とどこが似ていて、どこが違うか、といった疑問が湧く。サンガーは1970年代に第一世代DNAシークエンシングの開発を進めた(参考文献1,2)。彼の名を有名にしたシークエンシングの方法は、体外で細胞増殖機を使い、伸張できないDNA塩基をうまく伸張させるというものである。こうして変更が加えられた塩基は、一定の物質が最小限度、絡んで反応が生じている状況下で、低濃度で加えられる。具体的には、(1)高濃度の、伸張可能な塩基、(2)これからシークエンスされる、一本鎖のDNA、(3)DNAテンプレートに相補的な役割をする、短いオリゴヌクレオチドのプライマー(そしてテンプレート上には、新しい塩基が合成することがある)、および(4)伸張反応を差配するDNAポリマー酵素の4種類である。サンガーが行った初期のシークエンシング実験では、これら4種類の反応がそれぞれ独立して生じ、個々には伸張不能な、単一の塩基(A(アデニン)、T(チミン)、G(グアニン)またはC(シトシン))が含まれる形であった。ポリメラーゼが、伸張不能な塩基の一つを発生段階のDNA分子にランダムに合成させるとき(例えば、発生段階にある伸張不能なGが、反対側はDNAテンプレートにあるCと合成する場合など)は常に、それ以上は合成を止めようとするため、首部分のないテンプレートが再生されることとなる。ここで極めて大事なことは、発生段階の鎖はすべて、同じオリゴヌクレオチドのプライマー(ポリメラーゼ連鎖反応(PCR)で使用する鋳型DNAに相補的な塩基配列を持つ合成オリゴヌクレオチドのこと:訳者参考)から据え着いて広がっていくため、伸張がどの段階で止まるか、そしてその結果、発生段階のDNA鎖がどの程度の長さになるかが、当該分子の3’末端の塩基の直接の代理変数になることである。4つの反応のそれぞれで、合成を止めた分子の長さを分析するために用いる電子泳動用ゲルを使えば、テンプレート全体の配列を推論することが可能である。
サンガー式シークエンシングは、独特の顔料を施した伸張不能の塩基を導入したことで、わずかながら計測がより可能になった(図1)。4つの反応に仕切りを入れて、塩基特有の情報を入手するよりも、毛細管電気泳動器は蛍光顔料検知器と組み合わせることで、DNA断片の相対的な大きさと伸張が停止した塩基の正体の両方を分析することができた(文献3~5)。計測不可であることを理由にこれらの機器を批判するのは、それがもたらした、決して小さくない成果の一つを見落とすことになる。つまり、これらの機器こそ、1990年代、初期の人間ゲノム配列を進めた機器であったことだ(文献6~9)。とは言え、数十億ドルもの費用と数年単位の時間がかかる状態を考えると、大きな技術的跳躍でもない限り、ゲノム・シークエンシングは臨床現場では、ほぼ全く使えない状態が続くと思われる。
NGSはサンガー式に見られた多くの技術的限界を克服し、ゲノム・シークエンシングに革命をもたらしたが(文献10)、それでもNGSで最も知れ渡った方法論は、その多くが過去の技術と共有するものから成っている。後ほど詳述するように、NGSは伸張停止と蛍光塩基にも影響するが、その際はDNAポリメラーゼの単一塩基を発生段階のDNA分子に一度で付着させる機能に依存している。実際にNGSの実験は多くの点で、サンガー式反応を数百万とか数十億のレベルで、同時並行で実施するようなものである(このため、NGSには「巨大な同時並行配列」という別称がある)。

次世代シークエンシングの役割

 次世代シークエンシング(NGS)の装置は、特殊にライブラリー製作したDNA分子を蒸留して、長いテキストファイルの配列にしていく役割をしている。テキストファイルは、配列された各分子ごとに一本の線となっている。次世代シークエンサーで、分子からテキストファイルにマッピングする作業は、ブロッコリーを用いたRNAシークエンシング(文献11)から、リボソーム・プロファイリング(リボゾームが付加されたmRNA断片をディープシークエンシングする手法。文献12)、そして妊婦を対象にNIPT検査で行うDNAシークエンシング(文献13)まで、様々な研究や臨床現場にわたって展開されている。こうしたNGSの応用例は主として、「ライブラリー調製」と呼ばれる、DNAの上流をシークエンサーに注入する手法の種類によって区別される。上流部門での様々な調製方法を映し出すことが、下流部門での実例を広く比較分析することになるが、その一つがNIPTで用いられている分析手法で、第3章で詳しく取り上げるところである。本章では、NGSで用いられる各機器がどのようにDNAを配列するかの説明に加え、NIPTに絞って、上流から下流部門にかけて、NIPTのワークフローはどのようになっているのかを見ていく。

上流部門のシークエンサー

DNAの抽出

無細胞DNAは、その名の通り血液細胞には存在せず、血漿から抽出しなければならない。無細胞DNAの断片は死亡した細胞の残骸である(文献14)。細胞がプログラム化された細胞の死を迎えると(これを「アポトーシス」という。)、一組の酵素が合体し、それがゲノムDNAを消化する(文献15)。こうした酵素は、ヌクレオソームに閉じ込められていないDNAにしかアクセスできない。ヌクレオソームは、細胞内の遺伝子表現とゲノム・トポロジーをコントロールする、ヒストン・タンパク質の八量体(オクタマー)から構成されている(文献17)。ヌクレオソームDNAにアクセスできないということは、ヌクレオソーム内を回流している150未満のヌクレオチドのDNA断片はアポトーシス過程中、生存していることを意味し、かつ死にかけた細胞から脱出したDNA断片が無細胞DNAを形成し、それがシークエンシングされて、後で詳しく述べる次世代シークエンシング(NGS)のリード(読み取り断片。シークエンシング反応での出力のこと:訳者参考)と呼ばれるものを出力することを意味する。

血漿から無細胞DNAを抽出するには、まず血液を遠心分離機にかけて、血漿とバフィーコート(血液の白色細胞が含まれている)、赤血球に分離させる必要がある。血液全体のおよそ55%が血漿である。遠心分離機から血漿を取り出す際には、バフィーコートを慎重に取り除くようにする必要がある。これは、白血球細胞中に占める母体DNAの濃度が高すぎると、胎盤から取った、希少な無細胞DNAが薄まり、胎児の異数性を検出する感度が弱まるか、完全になくなってしまうためである。

商業ベースの、標準的なDNA抽出技術を用いれば、血漿サンプルから取り出した、分析の実施に十分な量の無細胞DNAを清浄することが可能である(文献18、19)。通常、血漿に含まれる濃縮無細胞DNAの量は1ml当たり、わずか5~50ng程度だが、血漿中の無細胞DNAのこの低量が注目されるのは、これが基準になって、無細胞DNAに基づく出生前診断の際の必要血液量の下限値が確定しているからである。血液量が少なすぎるか、DNAの抽出量が不十分であると、抽出された検体に含まれるゲノムのコピー数が少ないため、胎児の遺伝子量のわずかな変化が検出できないかもしれない。例えば、抽出検体にゲノムのコピーが10しかなかった場合、21番遺伝子の量が2%変化したのを、検出できそうにない。逆に効率的な抽出法があれば、胎児ゲノム断片が低量であっても、胎児の染色体異常を検出できるだけの十分なゲノム相当物を取り出すことができることとなる。DNA抽出で取り出すべきゲノム相当物の数は、その後に行うNIPT検査によって異なる。全染色体シークエンシング(WGS)の場合なら、血液のどの部分であっても、無細胞DNAの必要数は極めて少ないため、患者から抜き取る血液量は非常に低量で足りる(文献13)。このため、血液検体1本から複数回、DNA抽出をしようとすることも可能である。これと対比すると、一塩基多型法(SNP)などのように検査対象を絞った技術の場合は、特定の領域ごとに数百のゲノム相当物を必要とし、それによって対立遺伝子のバランスが高い精度で測定されることとなる(WGSとSNPについては第3章で詳しく述べる)(文献20)。このため、SNPのためのNIPT検査で必要となる血液量は、通常WGSの場合より多くなる。

無細胞DNAの濃度は非常に低いので、NIPTを実施するのに十分な無細胞DNAが抽出できたかどうか、測定することは些細なことではない。通常DNAの抽出量は、NGSを行う前にポリメラーゼ連鎖反応(PCR)を行うことで増量できる。つまり、抽出が非効率であっても、シークエンシング用に多量のDNAを生み出すことは可能である。ということは、抽出が非効率であったかどうかは、NGSの深さによるものではない、ということである。幸い、シークエンシングするデータの「複雑さ」から、抽出が非効率であるかどうか、見抜くことができる。たとえば、WGSの場合には、効率的に抽出をすれば、ゲノム上は0または1個(大抵は0)が配列したDNA断片になる。それは、シークエンシングが、ゲノム情報統合型物質を豊富に含む、元のプールからのポアソン・サンプルであるからである(文献21)。しかし、抽出の非効率さに加えて、もしゲノム情報統合型物質の元のプールが薄かったりすると、DNA断片は染色体上に0か1未満の確率で置かれるため、結果として複雑さの低いデータとなってしまう。逆に抽出が極めて効率的であれば、シークエンシングに必要な、十分なDNAを生むためにPCRが必要とはされないかもしれない。こうした「PCRのない」ライブラリーの準備では、ライブラリーの複雑さが高くなるものと思われる。胎児の異数性に関するデータが統計的に有意になるよう、シークエンシングするNGSデータの複雑さを観察することが重要である。

ライブラリーの調製

NGS用の機器は適切に用意されたDNA分子(これをライブラリーという。)を、一体としてしか配列できない。特に、臨床分野で優勢を誇るイルミナのゲノムセットでは、3’末端のすべては配列を共有し、5’末端のすべては別の配列を共有するが、ライブラリー内のDNA分子は、両側に共通するアダプターが付いているもの(配列は特に50ntまでのもので、スペックは製造者が行ったもの。)を用いなければならない(参考文献22)。DNA分子を両側から押さえるのに、共通するアダプターを使うことで、一対のプライマーしかなくても、ライブラリー全体を効果的に増やしたり、伸長したりすることができるのである。そうした増大と伸長が起きるのは、(1)場所としては、データ入力を十分集中させるために、シークエンサーの上流部門で(この過程は追加的)、(2)時間的には「クラスターの増加」過程のシークエンシングのちょうど直前、NGS機器の中で(これについては後述する)、(3)配列の反応の間の時間帯に(同じく後に述べる)である。

この中で、すべての5’端末も3’端末も持っているアダプターは、それぞれ異なるのに、最も共通するプロセス自体では、賢明な分子生理学が展開されている。第一に、無細胞DNA分子はすべて両端が切れているか、もしくは一方の端が短く切れた、出っ張りがついているが、これがポリメラーゼ酵素によって孵化され、さらに3’末端の出っ張りが短く削られ、その後が5’端末の出っ張りによって埋められ、3’端末にアデニン(A)塩基が付加され、これがAの出っ張りになる(図2)。この結果、最終的にこうしたDNA断片は、「Yアダプター」とリガーゼ(連結酵素:訳者参考)の混合体となる。ここで、Yアダプターには2つの一本鎖のDNAの末端があり、一方は補助(Yの幹)であるが、もう一方はそうではない(Yの枝)。このYアダプターの二つの末端のうちの一つはT(シトシン)の出っ張りなので、無細胞DNA断片のAの出っ張りとハイブリダイトする可能性もあるかもしれない。Yアダプターの2つの末端が左右非対称にできていることで、無細胞DNA分子の末端でYアダプターの核酸連結が起こった後、個々の末端には共通する5’端末アダプターと3’端末アダプターが来る構造となっている。

NGSを受けるDNA断片が同じ長さである場合、シークエンシングのバイアスは最小化されている(参考文献24)。NGSの実際のケースでは、ほとんどの場合、恐らくは大きさが選択された次の段階で起こる、生体外の分裂における反応で、比較可能で受入れ可能なサイズの断片が生み出される。しかしNIPTの場合には、アポトーシス過程で生ずる生体内DNA分裂過程では、長さについては極めて均一で、150ntくらいの断片を生みだしてくるため、そうしたプロセスは不用である(参考文献25、26)。実際、生体内の無細胞DNA断片生成過程における長さは非常に正確なので、胎盤ヌクレオソームと他の組織からのものの間にわずかでも違いがあれば、無細胞DNAの長さにばらつきが生まれるため、胎児からの断片であるかどうか、分析に回せるほどである(胎盤の断片は非胎盤組織よりもシステム的に短い)。(参考文献27)

無細胞DNAの長さは全染色体方式(WGS)のNIPTでは捕捉可能であるが、SNP方式ではできない。これはライブラリー調製の方法に違いがあるためである。WGSは、変更を施していない無細胞DNA分子(ただし、検査を乱暴に止めたものや、前述したアデニン・テーリング(異常に固定相に分配されず、濃度分布が中央よりも奥に出てきてしまう現象:訳者参考)は除く。)に単にYアダプターを付加するものである。WGS方式の検査は血漿から無細胞DNAを満遍なく抽出することに目標があることから、こうした単純なライブラリー調製の流れの方が向いている。一方、SNP方式のNIPTの場合には、情報に富んだSNPのサイトと重なる無細胞DNA断片を除いて、胎児の異数性について洞察を与えるものがない。このため、対象として関心を置いた分子の断片(の情報量)を充実させる必要があり、それには、マルティプレックス・ポリメラーゼ連鎖反応(PCR)の中から収集する必要がある(参考文献20)。マルティプレックス・PCRには、検体から無細胞DNAを抽出した一本のPCRチューブの中に、数百から数千の異なるプライマーを一緒に混ぜることができる。そして、適切にプライマーを作り反応条件を整えれば、対象とした場所から得られた断片を、シークエンシングに用いるものとして、大いに(情報量を)充実させることができる。アダプター・シークエンスはマルティプレックス・PCRに直接付加するか(この場合は、マルティプレックス・PCRだけがNGS実施可能なライブラリーを生み出すことができる)、またはマルティプレックス・PCRに続いてYアダプターの核酸連結が起こる。この反応の中で長さに関する情報が失われてしまう理由は、単位複製配列の長さはこしらえたプライマーが命ずるものであって、プライマーが強化する無細胞DNA断片から離れたテンプレートではないからである。

NGS方式のNIPTにおいて、機器の形式的要因から必要となる、ライブラリー調製の際の重要な手続きとして、バーコード化がある(参考文献28)。イルミナ社のシークエンシングではデータはフローセルの形態で販売されており、そこではフローセル1単位あたり数億から数十億のリードが含まれている。1つの検体に必要なリード数をはるかに超える膨大な数のリードである。このため、一つのフローセルに検体をたくさん載せた方が経済的となる。これを「マルティプレックス」と呼んでいる。

ただし、qPCR機器やELISA機器、毛管シークエンサーなど他の検査機器は、アッセイの過程は検体を相互に別々に離して保管するが、それと異なりNGSのフローセルでは、シークエンシング中、検体を相互に離すことは全くしていない。「デマルティプレックス」の仕組みが必要なのはそのためで、この仕組みがあればNGSのデータをシークエンシング後に、再度、関連する人口コーホートの中に分け入れることができる。デマルティプレックスは、Yアダプターのセットに含まれている、長さの短いDNAの配列(典型的には6~8nt 未満)を、特定サンプルのライブラリー用に作った、検体特定のバーコードを用いて行われる。重要な点は、バーコードは検体ごとに異なっていること、それと、同じ検体からとった分子のバーコードは同じであることである。NGS機器からはバーコードを並べたテキストファイルが1枚と、それとは別に無細胞DNA断片のテキストファイルが1枚、発行される。ここで、2枚のテキストファイルの同じ行には、同一分子のデータが並ぶようにできている(つまり、バーコードのテキストファイルの第一列と、無細胞DNA断片のテキストファイルの第一列には、同じ無細胞DNA分子のデータが並んでいる)。こうしたファイルを用いれば、実在する検体が複数の、上部の口が開いた皿でシークエンシングされている最中であっても、フローセルのシークエンシング・ファイル全体を特定検体ごとのファイルに分けることができ、それによって検体別にデータを分けるのを、コンピューターを使って繰り返すことができるのである。

次世代シークエンシングの役割:分子ライブラリーからテキストファイルへ

サンガー後のシークエンシング研究者の中で、臨床ゲノム科学であるNIPTの領域における「次世代シークエンシング(NGS)」という用語に関して、何らか意見のあり得る者は複数いるが、「NGS」という用語は、現在、当該分野で優勢なプラットフォームとなっているイルミナ式のシークエンシングを、効果的に暗示していると考えられる。このことから、以下では、イルミナがシークエンサーでNGSを実施している「総合的シークエンシング」プロセスについて述べてみたい。

クラスターの生成

イルミナ式NGSの業務フローを直感で理解するためには、初期のサンガー式シークエンシングとの比較から、サンガーもイルミナのNGSも、いずれにも蛍光標識を一度に測定することでDNAの配列を決定する、というプロセスがあることを思い出すとよい。このため、最も基本的な点として、NGSの機器は分子を単体で分解し、分子の個々のゲノム配列に相当する、蛍光標識を捕捉できなければならない。クラスター生成のプロセスは、単体の分子が分解可能であり、その単体分子の蛍光標識を十分きちんと捕捉できることを確かなものとしている。

クラスター生成の第一段階(参考文献22)は、DNAライブラリー(化学的に一本鎖に変性している。)をロードして、フローセルと呼ばれるガラスのチャンバーに入れる。フローセルの表面は、オリゴヌクレオチドでコーティングされている。オリゴヌクレオチドは、ライブラリー調製の際に無細胞DNA断片に付加されるアダプター・シークエンスと同族である。一本鎖の断片は、ランダムに選ばれたフローセルの表面に固定する。NGSの全過程を通じて、DNA断片はフローセルと同じ場所に止まるため、断片を固定する位置は重要となる。ライブラリーに負荷をかける際の集中度を、注意深く測定しながら進める必要がある。集中度が高すぎると、フローセル内の同じ場所を複数のライブラリー断片で占有してしまい、特定断片から出された蛍光標識をきちんと検出する能力をやや阻害してしまう。一方、集中が低すぎると、フローセルをシ-ケンスする能力が過小利用となり、それが原因で、検体ごとのシークエンシングの深さが、異数性を確実に検出するには浅すぎることとなる。

クラスター生成の第二段階は、ブリッジの強化(bridge amplification)と呼ばれているもので、フローセルの表面で起こるポリメラーゼ連鎖反応(PCR)である。DNAをフローセルの表面にハイブリダイトし、さらにローカライズして強化する。シークエンシング実施中の単体の分子と合体させた単体の蛍光塩基は、いくら強化しても発光が弱く、NGS機器のカメラが捕捉できないため、こうしたDNAの強化は必要である。蛍光標識を検出できるレベルまで高めるために、元のライブラリー断片に非常に似せて数十万回コピーし、「クラスター」と呼ばれる、DNA断片の密度の濃いクローンを作り出す。ブリッジの強化(図4に図式化)には、フローセルの表面に付加されたオリゴヌクレオチドを用いる。これらのオリゴヌクレオチドは、毎回のブリッジの強化にプライマーとして機能する。オリゴはグラス側に接合されるため、一本鎖の分子は、折れ曲がることでフローセルと接合したオリゴにブリッジをかけ、それによって、その後、毎回の伸長を繰り返すこととなる。クラスター生成の最終段階では、各分子の中で二重になった断片のうち、一本鎖の当該分子の方(例えば、フローセルに付着しているピンク色のプライマー)を取り除くため、分割酵素と化学的変性を用いる。この結果、全く同じ配列を持つ、一本鎖のDNA分子が残ることになる(図5の上端参照。一本鎖のDNA分子には上部ではピンク色のプライマーが、フローセルには青色のプライマーがつながっている)。

シークエンシングの周期

クラスターは一旦強化されると、シークエンシング反応が始まる(参考文献22)。最初の段階はシークエンシングをするプライマーをフローセルに取り込もうとする。この場合、プライマーは、個々の断片のアダプター分子に埋め込まれた共通のシークエンスを焼き直す。プライマーの3’末端は無細胞DNAのインサート(大きなDNAに挟み込まれた小さなDNA片のこと:訳者参考)にすぐ接しているため、シークエンシングによる配列の暗号解読は、無細胞DNAの末端の断片から始まる。続いてNGS機器によりフローセルは、蛍光標識が付いた伸張不能なヌクレオチドやDNAポリメラーゼなどによる、反応のミックスであふれかえる状態となる(図5)。ポリメラーゼはプライマーの端から伸長し、無細胞DNA分子のテンプレートに相補的な、蛍光標識された塩基をどんどん取り込んでいく。これらの塩基は伸長不能なため、伸長は一塩基のみで生ずることとなり、死滅するまで続く。この時点でまだ取り込まれていないヌクレオチドと伸長反応のミックスは、フローセルチャンバーから流され、映像化が始まる。フローセルの全域がカメラでスキャンされ(最近のイルミナの機器では、フローセルは上部と底部の両方がスキャンされるようになっている)、クラスターが把握され、その映像データが保存される。クラスターの色は、取り込まれたばかりの塩基の色を反映したものと思われる。クラスターはブリッジ強化の過程でしか目にすることができない。映像撮影の後、化学物質の混合物がフローセルに入り、フローセルは取り込んだばかりの塩基から蛍光部分を取り除き、塩基の伸長する能力を回復させる。この回復反応は、個々の分子に対し、今後のラウンドでの伸長と映像撮影を進めるものであるだけに、極めて重要である。実際に、伸長、画像撮影から回復までのサイクル、さらにはフローセルの表面にあるクラスターの配列を解読する追加的なサイクルと、何百回も繰り返される(利用者の希望に基づき)。この繰り返しの回数が、マッピングの際に用いられるリードの長さを決定する。

NIPTでの適用の場合、シークエンシング・サイクルの回数は通常、少ない(25~36)。他のゲノム検査では、配列された分子を分析し、新種のゲノム変数があるかどうか確認する(それにより長いリードに価値を見いだす)ことになるが、それと異なり、現在の無細胞DNAのNIPTによる染色体異数性検査は、一塩基レベルでの新種の発見をめざすものではない。SNPによるNIPTの場合だと、SNPがシンケンシングするプライマーに近似するように、マルティプレックス・プライマーを作ればよい。またWGSによるNIPTの場合には、リードが一意対応でマッピングできるまで、シークエンシングを続けるしかない。これら両者の長さの短いリードは、NIPTに合った、以下の2つの目的から魅力的にうつる。(1)NGSにかかる時間はシークエンシングにかかる時間に比例することから、リードの長さが短いと早い検査報告が可能となる。(2)短いリードは長いリードよりも費用が安く、検査の費用負担上、好ましい。

ペアード・エンド・シークエンシング

NGS機器の場合、シークエンシング反応をコントロールするオリゴヌクレオチドが、DNA断片のすぐ脇にアダプターを固定する関係から、DNA断片の末端でしか配列を決定できない(参考文献22)。さらに、ヌクレオチド伸長は5’末端から3’末端にしか進まないため、クラスター強化過程で生まれてくる、フローセル固定の一塩基DNA断片は、一方の端からしかシークエンスできない。ところが、「ペアード・エンド」と呼ばれるシークエンシングのプロセスでは、DNA断片の両端から始めて配列を決定することができる。ペアード・エンドのシークエンシングは、その名の通り、従前書いた片側シークエンシングを2ラウンド行うもので、各ラウンドのシークエンシングは別々のプライマーで進められ、鎖をスィッチさせる仕組みによって相互に区別する形となっている。このスィッチ方式の最初の段階で(図6)、フローセルにある二本鎖のDNAは変性される。この過程で、クラスターに元々あった一本鎖の分子は、これから発生する一本鎖と区別される。そして後者の一本鎖は、第一ラウンドでシークエンシングしていたプライマーから離れたところに、プライマーが合成されたものとして作られる。フローセルに固定されていない、今後発生する鎖はフローセルで洗浄され、クラスターの強化後、フローセルを効果的に元の地位に戻す。しかし、断片の反対側から配列を捉えるためには、5’端末から3’端末へと伸長反応が進展するよう、元々のクラスターにある逆相補鎖は合体される必要がある。クラスターの一本鎖の断片は第一ラウンドのブリッジ強化の進行で逆相補しているが、ブリッジ強化によりクラスターが作られ、二本の鎖が存在する。ついで、フローセルを固定したオリゴヌクレオチドを切り開く分子を導入し、それによって元々の鎖を取り除く。このプリセスは、プライマーを反対方向からシークエンシングすることで、クラスターが伸長するようにする準備であり、DNA断片の反対側からシークエンシングに関する情報を得ることができるようになる。

画像解析とシークエンシング数量解析

NGS機器が、DNA配列の暗号としての分子情報を映像の山に変換する手順を前述したが、そこで目標としているアウトプットは配列情報のテキストファイルであって、高感度画像ではない。この最終変換を行うのが、「ベース・コーリング」と呼ばれる、シークエンシング・デバイスに組み込まれたソフトウエアである(図7、参考文献22)。このソフトウエアの目的は、個々の画像の中で一つひとつクラスターを探し出すことで、画像の山の中からクラスターの位置と色を追跡する。初期のシークエンサーでは、クラスターは、スライド全体の中でランダムに位置を変えてできあがっていた。また、ヌクレオチドには4色あった。このため、当時は機器は毎回、4つの画像を捉え、分析していた。しかしその後の新しい機器は、パターン化されたフローセルを用いている。クラスターが拡大する化学現象が以前と異なり、フローセルの表面に刻まれたたくさんの穴を、分子のテンプレートが一つ一つ埋め、その結果、穴の後が全体で蜂の巣状を形成する。こうした蜂の巣状のパターン化が、画像解析を単純化し、結果として解析を早めている。また、塩基の暗号化に2色のみを使うことにしたことも、画像解析の迅速化につながった。アデニン塩基を緑色と赤色のフルオアフォア(蛍光分子)を持つように変更を加えることで、単に赤色と緑色を見るだけで4塩基全体を決定することができる。アデニンは赤と緑、シトシンは赤だが緑ではない、チミンは緑だが赤ではない、グアニンは色がない、という具合である。

このソフトウェアは解析するクラスター一つひとつに対し、「ベースコール」(すなわち、塩基が解読できない場合のアデニン、チミン、シトシン、グアニンまたはNのこと。)と質的評価点の両方を発行する。質的評価点は1から40までのいずれかで、ベースコールに対する信頼度を示すものであり、この点数化によって、デジタルで表現されている塩基を、アナログ的な要素で評価する形となっている。質的評価は配列情報を生命情報科学でフィルターをかけるものであり、重要である。例えば、質の悪い塩基だけでできているリードなどは、評価の結果、無視すべきだということになりそうである。それと同様に、一塩基多型(SNP)方式のNIPTのような技術は、一塩基をつきとめることで、対立遺伝子のバランスに影響を与える(第3章参照。SNP方式のアルゴリズムを詳説している。)わけなので、そうした技術をもって、この質的評価点を説明することは、異数性発見の実績を大きく向上させる可能性がある。

映像解析の結果、塩基の配列とクラスターの質評価点がひとたび決まれば、その情報はFASTQファイル(訳者注)に書き込まれる。クラスターにも名前が付されるが、通常、名前にはフローセル内のクラスターの位置情報が含まれることとなる。これら全体をもってNGSの「リード」情報を構成する。現行のNGS機器は、フローセル当たり数十億のリードを測定することができるため、FASTQファイルは非常に大きなテキストファイルとなっている。重要なことは、FASTQファイルが生成されれば、当該NGS機器の当初の目的である、DNA断片の分子ライブラリーのテキスト・ファイル・ベースの配列情報への変換が終了したことを意味する。

シークエンサーの下流部分:デマルティプレックスとアラインメント

シークエンシングの決定とベース・コーリングが完了すると、次はデマルティプレックスとアラインメントとなる。これらは、NGS方式のNIPTに共通のプロセスで、第3章で説明する各プラットフォーム別の分析に先立って行われる。両プロセスのうち先に行われるのがデマルティプレックスで、対応する分子バーコードの配列に基づいて、NGSによるリード結果を元々のサンプルに割り当てる。バーコードのリードと無細胞DNAのリードは、別々のFASTQファイル(ペアード・エンド・シークエンシングの場合、無細胞DNAのFASTQファイル2つと1つのバーコードファイルがある。)に書き込まれるが、それぞれの行は互いに対応している。このため、デマルティプレックス・プロセスは非常にわかりやすい(通常はシークエンシング用機器のソフトウェアと一緒に含まれている)。ユーザーは、まず最初に検体の名前のバーコードを立ち上げ、ソフトウェアに入る。単純なスクリプト(プログラム)がバーコードと無細胞DNAのリードに向かってFASTQファイルを進み、バーコードに基づいて無細胞DNAのリード情報を検体別のFASTQファイルにコピーする。ここでバーコードについては、バーコード配列決定中の小さなNGS上のミス(例えば、バーコード上での間違ったベースコール)で生じたリードの廃棄処分を最小限にするため、仮にミスマッチが1つ2つ生じても、相互にはっきり識別できるような、互いに似ていないバーコードが典型的には選択される(参考文献30)。

無細胞DNAによるNIPTの基本的な前提、つまり、胎児ゲノムが特定のゲノム領域に異常な量、存在するのかを確定するにあたっての前提は、無細胞DNA分子はそれぞれの起源領域にマップされている、ということである。このマッピングは、アラインメント(既知の参照ゲノムに対してシークエンス・リードをマップすること:訳者参考)の過程で生ずる。アラインメントの基本的な考え方は簡単で、数十から数百の文字列からなる、あるリードのデータに対して、同じ文字列がおよそ30億文字の文字列として現れる場所(すなわちヒト参照ゲノム)を見つけることである。この概念は単純だが、効率的な方法で実行することは簡単ではない。NIPT分析では通常、一意対応するマッピングのリードのみが考慮され、複数の場所から得られる可能性のある、前述のような配列は余分なものとされるが、リードの対象としてはゲノム全体のことを考える必要がある。しかし、個々のリードごとにゲノム全体を詳しく検査し、かつ、各リードが各末端で比較対象としたリードと一致するかどうかを調べることは、十分であるが、非常に非効率的である。この単純な手法では、読み取りごとに30億回の比較が必要になり(参照内の各オフセットに1つ)、単一のフローセルから数十億もの読み取りに対してこの手順を実行すると、最大で1018回の計算が必要になります。さらに問題を複雑にしているのは、NGSのリードの場合、特定のNIPT方式(例えばSNP)における比較対象のリードと、よく異なることである。このため、リードが特定の比較対象の場所にマップされているかどうか判断するのは、完全な一致を見つけるよりも難しいほどである。この場合は、代わりにマッピング・アルゴリズムで、リードが特定の比較対象の場所でほぼ似た状態になっているかを捕捉するしかない。

NGSが使いやすい技術として生き残っていけるかどうか、それも一般的な意味ばかりでなく、特にNIPTの技術としてどうかに関しては、何百万もの読み取りを数分でヒトゲノムに整列させることができる、高速のアルゴリズムが開発できるかどうか次第となる(参考文献31、32)。こうしたアルゴリズムの開発者として、重要な洞察の一つと考えていることは、実験データ自体とは異なり、参照ゲノムは静態的である点である。したがって、検索しやすくするようなゲノムの前処理などは、その後の性能に大きな成果をもたらすことがある。実際に、アラインメントの圧倒的売れ筋であるソフトウェア・パッケージなどでは、アラインメントの上流過程を共有し、その実施中に、参照ゲノムの一連のインデックス・ファイルを作成している。一次索引ファイルはゲノムを精巧に並べ替えたバージョンであり、元のゲノム配列に関するすべての情報を保持するとともに、迅速な検索がしやすい形で配列を再指示する。この特別な指示によって、リードは一度に一つの塩基にマップすることができます。つまり、連続した塩基(例えばG(グアニン)塩基など。)がリードの中に含まれていれば、形質転換されたゲノムのほぼ75%は、今後の毎回の検索で無視することができる(例えば、A、CまたはTを有するもの)。連続した塩基にわたって(シークエンシングを)繰り返すことで、リードの真の原点に迅速に近づくことができる。実際、こうして変換されたゲノムを備えれば、リードはなんと10~20回程度の計算(すなわち10~20塩基分)でマップできるのである。これは前述した、リードを比較対象ゲノムの位置における配列と比較するためには、3億回の計算を必要とする素朴なアルゴリズムとは、極めて好対照の結果である。これらのアラインメントのためのアルゴリズムは、ギャップやミスマッチに強くなれるよう、微妙な修正を実装しているが、そうした機能上のサポートには最小限のオーバーヘッドが必要となる。最終的には、無細胞DNAによるNIPTで臨床的に必要な時間幅の中で、この前処理されたゲノム・インデックスによって、アラインメントはもっともな形におさまっていく。

次世代シークエンシングの代替技術と非代替技術

配列決定をベースとしたNIPT検査のほとんどはIllumina社の機器を利用しているが、配列決定ベースであれ別の方式であれ、多数の無細胞DNA分子が元々存在したゲノム位置を特徴づけることができる技術はいずれも、十分に高速でかつ十分な情報処理量で機能するものである限り、無細胞DNA方式のNIPTも実施が可能ではないかと思われる。Illumina社の、合成による特定の配列決定技術は、塩基当たりのコストが低く、また塩基当たりの時間も臨床部門から要請された報告時間に合わしていくことが可能なだけに、他の関連するアプローチ(例えば、ピロシークエンシング法)や連結による配列決定プラットフォーム(例えばSOLiD)に取って代わってきた(参考文献10)。しかし、もっと高速でより安価な、他の競合する配列決定技術であれば、NIPTの配列決定の世界を急速に変えることができるように思われる。例えば、まだ初期の技術だが、じきに合成による配列決定アプローチより優位に立つと思われるものとして、ナノポア(タンパク質微細孔:訳者参考)によるシークエンシングがある(参考文献33)。ナノ細孔は、長いDNA分子が電荷を遮断する膜に埋め込まれたタンパク質の孔を通過する際の、電圧シグネチャを測定することによってDNA配列を決定する。孔内のヌクレオチドには、グループごとに(例えばGCGTA)、それぞれ特徴的な電圧レベルがある。ベースコールのアルゴリズムは、DNA分子の電圧の全軌跡をベースに、この電圧レベルを元に、特定のDNA配列にデコンボルブ(たたみ込みを解いて逆に求めること:訳者参考)することとなる。ナノポアの持つ速度および情報処理量は、無細胞DNAベースのNIPTのアプリとしては魅力的である。ナノポアは誤差率が高いために、患者のゲノムにおける変異体同定が複雑になることが大きな限界点で、ナノポア開発者はこの点にずっと苦労してきたが、それさえも、アラインメント・アルゴリズムがゲノム上の元の位置にリードをマッピングできる限り、深さをベースにした無細胞DNAによるNIPTなら、誤差があっても耐え得るため、若干とも限界点が小さくなるかもしれない(第3章参照)。非常に長いDNA分子が、一つの無細胞DNAの断片に含まれる150未満の塩基よりも、はるかに多い、数十万規模の数の塩基に向かって接近する際に、ナノ細孔はこれをシークエンシングするのに最適である。このため、ナノポア・シークエンシングのための最適なライブラリー調製では、数百の無細胞DNA分子を一緒に縫い合わせて単一分子にするという、無細胞DNAを広範にコンカテマー化する作業が含まれる場合がある。ただ重要なことは、無細胞DNAを用いるNIPTにナノ細孔を使用するという、この議論は、たぶんに推論を含む部分があることで、無細胞DNAのNIPTを特に保証するものではない。確かに、ナノポアは現在のところ、他のゲノム科学のアプリにより適しており、それがアプリ開発の動機ともなっている。しかしどちらかと言えばナノポアは、配列決定技術は進化し続けており、新しい技術はいつ現れるともしれない、という考え方を強調している点である。今日、合成による配列決定アプローチは、NIPTのシークエンシング・ベースのアッセイでは、至るところで見られるが、それはこれらが本質的に優れているからではなく、急速に進化している分野において、塩基当たりのコストと時間の点で、それらが最も優れているからである。

すでに述べたように、NIPTに適したDNA技術は、無細胞DNA断片をゲノム上の位置に迅速かつ安価にマッピングできさえすればよいが、マイクロアレイの結果を見ていると、この技術は厳密にはDNAを配列決定する必要がないことを示している。マイクロアレイに基づく無細胞DNAのNIPT検査では、比較対象として関心を置いたゲノム領域を覆う、特定のハイブリダイゼーション・プローブを用いて、数十万の無細胞DAN断片の多くの量を測定している(参考文献34)。マイクロアレイ(第3章でさらに詳述する。)は特定の対立遺伝子の多くをつきとめることもできる。そしてそうした、高度に多型的であるSNP(一塩基多型法)の領域で行うサンプリングでは、胎児断片に関する情報が提供される。関心を置いた配列を直接シークエンシングするのではなく、同族のDNA(例えば、マイクロアレイ上のハイブリダイゼーション・プローブ)を用いて定量化するという考え方は、定量化したポリメラーゼ連鎖反応(PCR)(参考文献35)を用いて、無細胞DNAのNIPTを実施するという最近の試みの根底にもあり、適切に選択されたプライマーセットがNIPT関連の領域における無細胞DNAの存在量を測定することができる。

結論

次世代シークエンシング(NGS)がNIPTアプリとして特に適しているのは、些細ではあるが明確な理由、そして余り意識されてない理由の2つの理由からである。明確な理由としては、NGSはデジタルの、ヌクレオチドレベルのデータを提供することで、深さと対立遺伝子に基づくNIPTの作業フローが実行可能となる。NIPTの作業フローでは、無細胞DNAの断片を突き止め、その量を測定することが必要となっている(第3章でさらに詳しく論じる)。極めて重要なことは、NGSで用いる機器は、こうしたデータを簡単にすばやく生み出すことができる点で、これに助けられてNIPTは検査機関、検査受検者、患者の制約条件を解決している。

一方、余り意識されていない理由の関連では、NGSは一方で、胎盤に由来する無細胞DNAに関連性のあるシグナルを捕捉している点がある。例えば、断片の一対を測定するNGSでは断片の長さを測定するが、胎盤由来の断片の方が、母体由来の断片に比べて一般に短い。また、胎児由来の断片はDNAメチル化する特徴があり、これは亜硫酸水素塩を施すと、その後、NGSで検出が可能となる(文献36:メチル化c塩基は変わらないが、非メチル化c塩基が亜硫酸水素塩に反応してウラシルに変換する(その配列はチミン塩基に似ている)。)最後にNGSは、単一ヌクレオチド決定の際に、無細胞DNA断片の末端の位置を確認・報告するが、この末端情報には、胎盤の重要なシグナルが含まれている。というのは、無細胞DNA断片の末端の位置を決定するに当たって、母体のヌクレオソームと胎盤のヌクレオソームの位置は、構造的に異なっているためである(参考文献37)。こうした胎盤のシグナルを抽出し、増幅する分析アルゴリズムによって、胎児の染色体異常を敏感に捕捉することは可能である。

無細胞DNAに基づくNIPT検査は、現在、急速に出生前臨床診断のお決まりコ-スになりつつある。これは主として、NGSが無細胞DNAの状況を読み、数を数える手段として成熟しつつあることによる。臨床の現場でNIPTがこれほどまでに広く採用されるようになると、経費を削減する技術開発を刺激するとともに、大規模なデータを生み出し、それによって一層繊細な、胎盤に限定したシグナルの発見につながっていく。かくして、無細胞DNAの計量化と理論化を図る動きは、今後とも着実に急速な発展を続け、そうした改善によって無細胞DNAに基づくNIPTの結果は向上するとともに、より幅広い人に利用されるようになる。

訳者注 FASTQは意味不明(前出しているのかもしれないが、確認できない)。

翻訳:梅澤眞一

関連記事

  1. 文献
  2. 文献
  3. 文献
  4. 文献
  5. 文献
  6. 文献

人気の記事

  1. 妊娠超初期症状はいつからはじまる?~受精から着床まで~ 受精 精子 画像
  2. 妊娠かな?と思ったら確認すべきこと
  3. 妊娠期間とは?週数と出産予定日の正しい計算方法 妊娠検査薬 写真