チョウが食草を見分けるしくみを探る | 8. 発現量が上昇している遺伝子(DEG)のデータを取り出す

2020/05/05 公開

発現が有意に上昇している遺伝子(DEG)のデータを抜き出す

前の手順までで、発現量が異なる遺伝子(DEG)の探索が完了している。ここでは、DEGのアノテーションデータや配列データを取り出して、どの遺伝子の発現量が変動していたのかや、タンパク質の構造予測やBLAST検索など、この後の各自の研究目的にあった解析が行えるようにする。

シェルのコマンドでDEGアノテーションを取り出す

DESeq2.数字.dir にいる場合

:> mkdir ./DEG
:> cd ./DEG

仮に
salmon.isoform.counts.matrix.FL_vs_HL.DESeq2.DE_results.P1e-2_C2.FL-UP.subset
が知りたい遺伝子のファイルである場合

:> grep 'TRINITY*' ../salmon.isoform.counts.matrix.FL_vs_HL.DESeq2.DE_results.P1e-2_C2.FL-UP.subset | awk '{print $1}' > DEG_list.txt

これで発現量が上がっている遺伝子のcontig名リストができる

:> for file in `cat ./DEG_list.txt`;do grep $file ../../../../../../Trandecoder/pfam_Final.out_domtblout;done > DEG.txt

「../」はひとつ上のディレクトー（フォルダー）の意味である。このマニュアルと同じ手順でディレクトリーを作成していれば、上記のコマンドで動作するはずである。ファイルが見つからないというエラーになる場合は、「../../」の部分を実際のファイルのパス（ファイルがある場所）に変更する。その際、Macの場合はファイルをターミナルのウインドーにドラッグ&ドロップするのが最も確実で簡便である。

これで、Transdecoder でアノテーションしておいたリストの中から、発現量が変わっていたcontigのアノテーションデータを抜き出せる

seqkitを使ってDEGのFastAデータを取り出す

:> for file in `cat ./DEG_list.txt`;do seqkit grep -p $file ../../../../../../Trandecoder/Trinity.fasta.transdecoder.pep > DEG.fasta

（アミノ酸配列の場合。塩基配列の場合はファイル名の.pepを.cdsに変える）

Q&A

皆様からいただいた質問と回答など、こちらへ掲載します。

質問やご意見はこちらへ

質問やご意見はこちらへ（投稿フォームに遷移します）

※ボタンのリンク先は、皆で語り合う生命誌研究館の掲示板「みんなの広場」です。ご投稿いただいたご質問やご意見、館員からのお返事は公開されますのでご了承ください。

昆虫食性進化研究室

発現が有意に上昇している遺伝子(DEG)のデータを抜き出す

シェルのコマンドでDEGアノテーションを取り出す

seqkitを使ってDEGのFastAデータを取り出す

目次

Q&A

質問やご意見はこちらへ