2020/05/05 公開

リードカウントのQC解析

例えば、同じ生物の組織間で遺伝子の発現量を比較する場合、生物学的・統計学的に意味のある繰り返しとして各組織につき三反復(三個体)以上の実験を行う。リード数のカウントや、この後の発現量の比較を行うにあたり、解析に用いられたリード数にどれくらいのばらつきがあるのか確認しておく。

作業手順


QCとDE用のサンプルファイルを作る

:> cat ../../BRR_file.txt | awk '{print $1,$2}' > ./BRR_DE.txt
 

「../」はひとつ上のディレクトリ(フォルダー)の意味。二つ続けることで、二つ上のディクトリーという意味になる。上記のコマンドで「二つ上のディレクトリーにあるBRR_file.txtというファイルを開いて、パイプ(|)でその結果を次のawkコマンドに受け渡す。awkはスペースで区切られた4つの文字列のうち一つ目と二つ目を抜き出して、BRR_DE.txtというファイルに書き込む。」という意味になる。
 

結果

sample_A sample_A_rep1
sample_A sample_A_rep2
sample_B sample_B_rep1
sample_B sample_B_rep2

というファイルが出来上がる

count_matrix フォルダーの中で、新しいフォルダーを作る

:> mkdir ./QC


フォルダーに移動

:> cd ./QC


スクリプトファイルを作る

:> touch ./compare.sh


スクリプトファイルを開いて編集

$TRINITY_HOME/Analysis/DifferentialExpression/PtR --matrix ../salmon.isoform.counts.matrix --samples ../BRR_DE.txt --log2 --min_rowSums 10 --compare_replicates
(同じ組織の繰り返し間の比較。RSEMの場合はsalmonのところを書き換える)



スクリプトファイルを作る

:> touch ./cpm.sh


スクリプトファイルを開いて編集

$TRINITY_HOME/Analysis/DifferentialExpression/PtR --matrix ../salmon.isoform.counts.matrix --samples ../BRR_DE.txt --log2 --min_rowSums 10 --CPM --sample_cor_matrix
(発現の類似性によるグルーピング。RSEMの場合はsalmonのところを書き換える)



スクリプトファイルを作る

:> touch ./pca.sh


スクリプトファイルを開いて編集

$TRINITY_HOME/Analysis/DifferentialExpression/PtR --matrix ../salmon.isoform.counts.matrix --samples ../BRR_DE.txt --log2 --min_rowSums 10 --CPM --center_rows --prin_comp 3
(重要な要素間の比較。RSEMの場合はsalmonのところを書き換える)



スクリプトを実行

:> /bin/sh ./compare.sh && /bin/sh ./cpm.sh && /bin/sh ./pca.sh

 

作成したスクリプトを一つずつ実行しても良いが、「&&」でつなぐことで、コマンドを終了したら次のコマンドを実行するという命令になるため、一回の操作で複数のコマンドを実行することができる。操作して完了するのを待って次の操作、というふうに作業を行う必要がなくなり、一回の操作を行うだけで後は全部終わるまで待つだけになるので便利。
また、スクリプトを作成して作業したフォルダー内に残しておくことで、作業ログにもなる。そのフォルダー内に残された解析結果が、どのようなコマンドによって得られたものなのか確実な記録になるので、完璧な再現性を保証する研究ノート代わりにもなる。紙のノートに手書きする際に発生する転記ミスを防ぐ意味もあるので、解析研究での研究ノートの残し方としてお薦めする。
スクリプトは「#」から改行コードまでをメモとして扱い、コマンドには影響しないという仕組みがあるので、上記のスクリプ内に実行した日付や研究の条件などを書き込んでおくと、研究ノートとしての情報量が上がってより有益である。

 

結果


PDF でクオリティチェックのレポートが作成される。
この図を見ながらサンプル間のばらつきなどを確認し、比較対象の選定などを行う。
 

目次

  1. 環境構築
  2. リードのクオリティチェックとアセンブル
  3. Transdecoder による遺伝子予測とアノテーション
  4. リード数のカウント
  5. カウントマトリクスの作成
  6. リードカウントのQC解析
  7. DE解析
  8. DEG取り出し
  9. おまけ1: Transdecoderの自動化
  10. おまけ2: 発現量解析の自動化
  11. おまけ3: Anacondaコマンドの使い方一覧

Q&A

皆様からいただいた質問と回答など、こちらへ掲載します。

質問やご意見はこちらへ

※ボタンのリンク先は、皆で語り合う生命誌研究館の掲示板「みんなの広場」です。ご投稿いただいたご質問やご意見、館員からのお返事は公開されますのでご了承ください。