PRSを作成する際には、適切なQCが欠かせません。ベースデータやターゲットデータを取得した後、PRS計算用ソフトウェアを実行する前に行うべきQC手順について解説します。本内容は、2020年にNature Protocols誌で発表された“Tutorial: a guide to performing polygenic risk score analyses”に準拠しています。詳細はそちらをご確認ください。
目次
用語解説
- ポリジェニックリスクスコア(Polygenic Risk Score, PRS)
- 複数の遺伝子座にまたがる遺伝的リスクを統合して数値化した指標。個人の遺伝型と、GWAS(ゲノムワイド関連解析)で推定された各遺伝子座の効果量を組み合わせて計算されます。
- クオリティコントロール(Quality Control, QC)
- データの信頼性を確保するための品質管理作業。PRSを計算する前に、ベースデータとターゲットデータに対して欠損、異常値、アレルの不一致などを確認・除去する工程を指します。
- ベースデータ(Base data)
- GWASの結果から得られるサマリーデータ。PRSの重み付けに使用されるため、適切なQCが重要です。
- ターゲットデータ(Target data)
- PRSを適用する対象個体の遺伝子型データを指します。個人単位で取得されたデータであり、PLINK形式などで管理されます。ターゲットデータにも独自のQCが求められます。
ベースデータ(GWAS summary statistics)に対するQC
遺伝率の確認
使用するGWAS summaryのSNP遺伝率(h²SNP)が0.05以上であることを推奨。
0.05を下回る場合はPRSの作成が可能かどうか、要検討!
- GWASを報告している論文を読み、SNP遺伝率を確認する
- 報告されていない場合は、LD Score RegressionやSumHerなどを使って推定する

大規模コンソーシアムによるGWASでは、遺伝率が5%を下回るケースは比較的稀です。
一方で、自前の小規模なGWASデータを使用する場合などには、注意が必要です。
エフェクトアレルの確認
- ベースデータのエフェクトアレル(効果アレル)を特定する
- 明示されていない場合、GWAS実施者に問い合わせる

GWASサマリーの列名をみれば、多くの場合推測できます。GWAS summaryとセットになっているREADMEがあるときには、そちらもチェックしましょう。
ターゲットデータ(解析対象個体の遺伝子型データ)に対するQC
サンプルサイズ
少なくとも100人以上(またはケース・コントロールなら有効サンプルサイズ100以上)を推奨。小規模サンプルだとQCが不十分になりやすく、PRS解析の結果が不安定になる。
- ターゲットデータのサイズを確認し、QCおよび統計解析に十分かどうか判断する

PRSを用いた統計解析(例:PRSと表現型との関連解析)においても、当然ながらある程度のサンプル数が必要ですが、その前段階のQCでも、最低限のサンプル数を確保することが重要です。
ベースデータとターゲットデータ両方に対するQC
ファイル転送時のチェック
- ダウンロードやコピー時にファイル破損がないか気を付ける
- md5sumなどでチェックも有効
ゲノムビルドの統一
ベースとターゲットでゲノムビルド(例:hg19, hg38)が一致していることを確認。
- 異なる場合は、LiftOverで変換
標準的なGWAS QCの実施
推奨されるフィルター基準は:
- ジェノタイピング成功率(genotyping rate)> 0.99
- サンプルの欠損率(sample missingness)< 0.02
- Hardy-Weinberg平衡検定のP値 > 1×10⁻⁶
- ヘテロ接合率が平均の±3SD以内
- マイナーアレル頻度(MAF)> 1%(サンプルが小さい場合は5%)
- インピュテーションの精度(info score)> 0.8
- ベースデータのQC設定の確認。必要があれば追加のQC
- ターゲットデータのQCをPlinkなどを用いて実施

ダウンロードしてきたベースデータ(GWAS summary statistics)については、GWASの段階ですでに必要なQCが実施されていることが多いです。
QCにおけるカットオフ値やチェック項目は、本稿で推奨する基準とは異なる場合もありますが、元のGWAS研究で十分なQCが行われているのであれば、そのまま使用して問題ありません。
一方で、ターゲットデータに関しては注意が必要です。
ターゲットデータについても、通常のGWASと同様に、適切なQCを事前に実施しておくことが推奨されます。
バイオバンクなどから提供された遺伝型データは、すでにヘテロ接合率や欠損率に関するQCが済んでいることが多いため、どのQC項目が既に実施済みかを確認することが重要です。
あいまいなSNP(Ambiguous SNPs)の除去
DNAは二本鎖構造であり、読んでいるストランドが違うとアレル表記(A↔T、C↔G)が入れ替わる。A/T型またはC/G型のSNPは、DNAのストランド(+鎖と−鎖)の違いによってアレル表記が逆転する可能性があり、ベースとターゲット間でアレル対応が不確かになる。PRS計算時にリスク方向が反転してしまうリスクを避けるため、これらのSNPはベースデータから除去する。
- ベースデータからA/T型またはC/G型のSNPを除外する
ミスマッチSNP(Mismatching SNPs)への対応
ベースとターゲットでアレル表記が違うSNPは、次のように扱います
- flip(反転)すると一致する場合(例:A/C vs G/T) → flipして合わせる。
- flipしても一致しない場合(例:C/G vs C/T) → このSNPは除去する。
多くのPRSソフトウェア(PRSice、PLINKなど)は自動でflip処理や除去を行うが、最終的にきちんと処理されているか確認が必要。
- 基本的には対応不要

Ambiguous SNPsとMismatching SNPsのQCは、通常のGWAS QCでは行われないため、注意が必要です。これらは、PRS作成に特有のQC手順であり、正しく理解して対応する必要があります。
これらのQCは、ベースデータに対してのみ行えば十分です。SNPのアレルパターンに基づくQCであり、実際のGenotypeデータとは無関係なためです。なお、PRS作成時には、ベースデータに存在しないSNPはターゲットデータから自動的に除去されるため、ターゲット側で別途対応する必要はありません。
実務上は、ベースデータにおいて二つのアレルの組み合わせがA/T、T/A、C/G、またはG/CとなっているSNPを除去するだけで対応できます。
重複SNPの除去
同じSNPが複数回現れるとPRS算出のエラーの原因になる
- ベースデータはShell scriptやR、ターゲットデータはPlinkなどで重複を除外する
性染色体に関するQC
自己申告の性別とX染色体由来の性別が一致しない場合は個体を除外。
通常、性染色体(X、Y染色体)上のSNPはPRS計算から除外する。
- PLINKの–check-sexを使い、不一致があれば除去する。

性別の確認はベース、ターゲットのそれぞれで実施しましょう。サンプルの取違えなどの検出にも効果的です。
サンプルオーバーラップ
ベースデータとターゲットデータに同一個体が含まれているとPRS効果が大きく見積もられてしまう。
- サンプルオーバーラップが疑われる場合は、ベースデータからターゲットデータの参加者を除外する
血縁者(Relatedness)の除外
ベースデータとターゲットデータの間に、血縁関係にある個体が含まれていると、PRSの効果推定が過大評価される可能性があります。これは、特に1親等や2親等の場合、遺伝的にも環境的にも非常に似ているため、環境要因と遺伝要因が区別できなくなるからです。
- ベースとターゲットのサンプル間で血縁度を推定し、血縁者を除外する。
- できない場合は、なるべく独立したサンプルを使う。
最後に
求められるPRSの品質は、研究の目的によって異なります。PRSアルゴリズムや遺伝学的な手法の発展を目的とした研究であれば、本ページで示したQCは最低限と考えるべきでしょう。一方で、臨床応用を目的とする研究であれば、このQCレベルでも十分に対応できる場合が多いと考えられます。
もちろん、QCの質は高いに越したことはありませんが、研究内容に応じて先行研究を参考にしながら、適切なバランスを見極めてください。
また、使用するPRSのアルゴリズムやソフトウェアによっては、要求されるQC手順が異なる場合があります。使用予定のツールのマニュアルや推奨事項もあわせて確認するようにしましょう。
コメントを残す