2020/05/05 公開

発現が有意に上昇している遺伝子(DEG)のデータを抜き出す

前の手順までで、発現量が異なる遺伝子(DEG)の探索が完了している。ここでは、DEGのアノテーションデータや配列データを取り出して、どの遺伝子の発現量が変動していたのかや、タンパク質の構造予測やBLAST検索など、この後の各自の研究目的にあった解析が行えるようにする。

シェルのコマンドでDEGアノテーションを取り出す


DESeq2.数字.dir にいる場合

:> mkdir ./DEG
:> cd ./DEG


仮に
salmon.isoform.counts.matrix.FL_vs_HL.DESeq2.DE_results.P1e-2_C2.FL-UP.subset
が知りたい遺伝子のファイルである場合

:> grep 'TRINITY*' ../salmon.isoform.counts.matrix.FL_vs_HL.DESeq2.DE_results.P1e-2_C2.FL-UP.subset | awk '{print $1}' > DEG_list.txt

 

これで発現量が上がっている遺伝子のcontig名リストができる

 

:> for file in `cat ./DEG_list.txt`;do grep $file ../../../../../../Trandecoder/pfam_Final.out_domtblout;done > DEG.txt

 

「../」はひとつ上のディレクトー(フォルダー)の意味である。このマニュアルと同じ手順でディレクトリーを作成していれば、上記のコマンドで動作するはずである。ファイルが見つからないというエラーになる場合は、「../../」の部分を実際のファイルのパス(ファイルがある場所)に変更する。その際、Macの場合はファイルをターミナルのウインドーにドラッグ&ドロップするのが最も確実で簡便である。

これで、Transdecoder でアノテーションしておいたリストの中から、発現量が変わっていたcontigのアノテーションデータを抜き出せる
 

seqkitを使ってDEGのFastAデータを取り出す

:> for file in `cat ./DEG_list.txt`;do seqkit grep -p $file ../../../../../../Trandecoder/Trinity.fasta.transdecoder.pep > DEG.fasta

 

(アミノ酸配列の場合。塩基配列の場合はファイル名の.pepを.cdsに変える)
 

 

目次

  1. 環境構築
  2. リードのクオリティチェックとアセンブル
  3. Transdecoder による遺伝子予測とアノテーション
  4. リード数のカウント
  5. カウントマトリクスの作成
  6. リードカウントのQC解析
  7. DE解析
  8. DEG取り出し
  9. おまけ1: Transdecoderの自動化
  10. おまけ2: 発現量解析の自動化
  11. おまけ3: Anacondaコマンドの使い方一覧

Q&A

皆様からいただいた質問と回答など、こちらへ掲載します。

質問やご意見はこちらへ

※ボタンのリンク先は、皆で語り合う生命誌研究館の掲示板「みんなの広場」です。ご投稿いただいたご質問やご意見、館員からのお返事は公開されますのでご了承ください。