ブログ一覧へ
ポリジェニックリスクスコア 遺伝疫学 GWAS 研究方法 リスク予測 遺伝率

臨床研究者のゲノム研究 ─ PRS QC解説

ポリジェニックリスクスコア(PRS)作成に必要なQC手順を、ベースデータ・ターゲットデータ別に解説。Nature Protocols 2020年のチュートリアルに準拠した実践的ガイドです。

PRS作成前に必要なQC手順まとめ

PRSを作成する際には、適切なQCが欠かせません。ベースデータやターゲットデータを取得した後、PRS計算用ソフトウェアを実行する前に行うべきQC手順について解説します。本内容は、2020年に Nature Protocols 誌で発表された Tutorial: a guide to performing polygenic risk score analyses に準拠しています。詳細はそちらをご確認ください。

用語解説

ポリジェニックリスクスコア(Polygenic Risk Score, PRS)

複数の遺伝子座にまたがる遺伝的リスクを統合して数値化した指標です。個人の遺伝型と、GWAS(ゲノムワイド関連解析)で推定された各遺伝子座の効果量を組み合わせて計算されます。

クオリティコントロール(Quality Control, QC)

データの信頼性を確保するための品質管理作業です。PRSを計算する前に、ベースデータとターゲットデータに対して欠損、異常値、アレルの不一致などを確認・除去する工程を指します。

ベースデータ(Base data)

GWASの結果から得られるサマリーデータです。PRSの重み付けに使用されるため、適切なQCが重要です。

ターゲットデータ(Target data)

PRSを適用する対象個体の遺伝子型データを指します。個人単位で取得されたデータであり、PLINK形式などで管理されます。ターゲットデータにも独自のQCが求められます。


ベースデータ(GWAS summary statistics)に対するQC

遺伝率の確認

使用するGWAS summaryのSNP遺伝率(h²SNP)が 0.05以上 であることが推奨されます。0.05を下回る場合は、PRSの作成が可能かどうかを慎重に検討する必要があります。

  • GWASを報告している論文を読み、SNP遺伝率を確認する
  • 報告されていない場合は、LD Score RegressionやSumHerなどを使って推定する

大規模コンソーシアムによるGWASでは、遺伝率が5%を下回るケースは比較的稀です。一方で、自前の小規模なGWASデータを使用する場合などには注意が必要です。

エフェクトアレルの確認

ベースデータのエフェクトアレル(効果アレル)を正しく特定することが重要です。

  • ベースデータのエフェクトアレルを特定する
  • 明示されていない場合は、GWAS実施者に問い合わせる

GWASサマリーの列名を見れば、多くの場合推測できます。GWAS summaryとセットになっているREADMEがある場合には、そちらも確認しましょう。


ターゲットデータ(解析対象個体の遺伝子型データ)に対するQC

サンプルサイズ

少なくとも 100人以上、またはケース・コントロール研究であれば 有効サンプルサイズ100以上 が推奨されます。小規模サンプルではQCが不十分になりやすく、PRS解析の結果も不安定になりやすいためです。

  • ターゲットデータのサイズを確認する
  • QCおよび統計解析に十分な規模か判断する

PRSを用いた統計解析(例:PRSと表現型との関連解析)には当然ある程度のサンプル数が必要ですが、その前段階のQCでも、最低限のサンプル数を確保することが重要です。


ベースデータとターゲットデータの両方に対するQC

ファイル転送時のチェック

ダウンロードやコピーの際に、ファイル破損がないか確認することが重要です。

  • ダウンロードやコピー時にファイル破損がないか注意する
  • md5sum などでチェックする

ゲノムビルドの統一

ベースデータとターゲットデータで、ゲノムビルド(例:hg19, hg38)が一致していることを確認します。

  • ベースとターゲットでゲノムビルドが一致しているか確認する
  • 異なる場合はLiftOverで変換する

標準的なGWAS QCの実施

推奨されるフィルター基準は以下のとおりです。

  • ジェノタイピング成功率(genotyping rate) > 0.99
  • サンプルの欠損率(sample missingness) < 0.02
  • Hardy-Weinberg平衡検定のP値 > 1×10⁻⁶
  • ヘテロ接合率が平均の ±3SD 以内
  • マイナーアレル頻度(MAF) > 1%(サンプルが小さい場合は5%)
  • インピュテーションの精度(info score) > 0.8

実務上は以下を行います。

  • ベースデータのQC設定を確認し、必要があれば追加のQCを行う
  • ターゲットデータのQCをPLINKなどを用いて実施する

ダウンロードしたベースデータ(GWAS summary statistics)については、GWASの段階ですでに必要なQCが実施されていることが多いです。QCにおけるカットオフ値やチェック項目は、本稿で推奨する基準と異なる場合もありますが、元のGWAS研究で十分なQCが行われているのであれば、そのまま使用して問題ありません。

一方で、ターゲットデータに関しては注意が必要です。ターゲットデータについても、通常のGWASと同様に適切なQCを事前に実施しておくことが推奨されます。バイオバンクなどから提供された遺伝型データは、すでにヘテロ接合率や欠損率に関するQCが済んでいることが多いため、どのQC項目が既に実施済みかを確認することが重要です。


PRS特有のQC

あいまいなSNP(Ambiguous SNPs)の除去

DNAは二本鎖構造であり、読んでいるストランドが違うとアレル表記(A↔T、C↔G)が入れ替わります。A/T型またはC/G型のSNPは、DNAのストランド(+鎖と−鎖)の違いによってアレル表記が逆転する可能性があり、ベースデータとターゲットデータの間でアレル対応が不確かになります。PRS計算時にリスク方向が反転してしまうリスクを避けるため、これらのSNPはベースデータから除去します。

  • ベースデータからA/T型またはC/G型のSNPを除外する

ミスマッチSNP(Mismatching SNPs)への対応

ベースとターゲットでアレル表記が異なるSNPは、次のように扱います。

  • flip(反転)すると一致する場合(例:A/C vs G/T) → flipして合わせる
  • flipしても一致しない場合(例:C/G vs C/T) → このSNPは除去する

多くのPRSソフトウェア(PRSice、PLINKなど)は自動でflip処理や除去を行いますが、最終的に適切に処理されているか確認が必要です。

基本的な考え方

Ambiguous SNPsとMismatching SNPsのQCは、通常のGWAS QCでは行われないため注意が必要です。これらはPRS作成に特有のQC手順であり、正しく理解して対応する必要があります。

これらのQCは、ベースデータに対してのみ行えば十分です。SNPのアレルパターンに基づくQCであり、実際のgenotypeデータそのものとは無関係なためです。なお、PRS作成時にはベースデータに存在しないSNPはターゲットデータから自動的に除去されるため、ターゲット側で別途対応する必要はありません。

実務上は、ベースデータにおいて二つのアレルの組み合わせが A/T、T/A、C/G、G/C となっているSNPを除去するだけで対応できます。


その他の重要なQC項目

重複SNPの除去

同じSNPが複数回現れると、PRS算出時のエラーの原因になります。

  • ベースデータはShell scriptやRで重複を除外する
  • ターゲットデータはPLINKなどで重複を除外する

性染色体に関するQC

自己申告の性別とX染色体由来の性別が一致しない場合は、個体を除外します。通常、性染色体(X、Y染色体)上のSNPはPRS計算から除外します。

  • PLINKの --check-sex を使い、不一致があれば除去する

性別の確認はベース、ターゲットのそれぞれで実施しましょう。サンプルの取り違えなどの検出にも有効です。

サンプルオーバーラップ

ベースデータとターゲットデータに同一個体が含まれていると、PRS効果が大きく見積もられてしまいます。

  • サンプルオーバーラップが疑われる場合は、ベースデータからターゲットデータの参加者を除外する

血縁者(Relatedness)の除外

ベースデータとターゲットデータの間に血縁関係にある個体が含まれていると、PRSの効果推定が過大評価される可能性があります。特に1親等や2親等では、遺伝的にも環境的にも非常に似ているため、環境要因と遺伝要因が区別しにくくなるからです。

  • ベースとターゲットのサンプル間で血縁度を推定し、血縁者を除外する
  • それが難しい場合は、できるだけ独立したサンプルを用いる

最後に

求められるPRSの品質は、研究の目的によって異なります。PRSアルゴリズムや遺伝学的手法そのものの発展を目的とした研究であれば、本ページで示したQCは最低限と考えるべきでしょう。一方で、臨床応用を目的とする研究であれば、このQCレベルでも十分に対応できる場合が多いと考えられます。

もちろん、QCの質は高いに越したことはありません。研究内容に応じて先行研究を参考にしながら、適切なバランスを見極めてください。

また、使用するPRSのアルゴリズムやソフトウェアによって、求められるQC手順が異なる場合があります。使用予定のツールのマニュアルや推奨事項もあわせて確認するようにしましょう。