2020/05/03 公開

MacでRNA-seqデータ解析


 業者に委託を行う場合も含めて、塩基配列を読むためのコストが低廉化している。研究対象の生物についてRNA-seqを行い、目的の解析を行うという光景は、生物学の研究室では身近で日常的なものになりつつある。公共のデータベースには多数の塩基配列データが公開されているので、自分でシークエンスしなくてもダウンロードして研究に利用することもできる。もちろん、公開データの利用はプロの研究者だけでなく、一般の方々も自由にできる。パソコンがあって必要なソフトの使い方がわかれば、誰でも解析研究に挑戦できるのだ。
 RNA-seqデータのアセンブル(バラバラの塩基配列データを遺伝子ごとにつなぎ合わせること)には、Trinityという無料のソフトウエアが使われることが多い。また、Trinityにはアセンブル後の解析に便利な様々なスクリプトが付属しているので、RNA-seqデータの総合解析環境と言っても過言ではない。
 ここでは、RNA-seqデータの解析に初めて挑戦する人を対象として、リードのクオリティチェック・不要な配列のトリミング・アセンブル・発現量の推定・組織間の発現量変動推定までの、当研究室で行っている解析手順を紹介する。
(基本的にはTrinity公式サイトの手順に従うので、英語のマニュアルで十分という方はここを読む必要はない)

このプロトコールを学ぶとできるようになること

  • 自分でトランスクリプトーム解析を行えるようになる
  • 注目するべき遺伝子であるという判断が、統計学的にどれくらいの強さで支持されて選択されたか理解できるようになる
  • 共同研究として解析をお願いしたインフォマティシャンと深い議論ができるようになる ←これ大切

目次

  1. 環境構築
  2. リードのクオリティチェックとアセンブル
  3. Transdecoder による遺伝子予測とアノテーション
  4. リード数のカウント
  5. カウントマトリクスの作成
  6. リードカウントのQC解析
  7. DE解析
  8. DEG取り出し
  9. おまけ1: Transdecoderの自動化
  10. おまけ2: 発現量解析の自動化

概要

  • 解析作業に使うパソコンはMacが便利である: 目次1
  • MacPorts でソフトウエア開発環境を整える: 目次1
  • Trinityのソースコードをダウンロードして、実行形式にコンパイルする: 目次1
  • Anacondaをインストールして、Python 3.8環境を構築する: 目次1
  • Trinityの動作とアセンブル後の解析に必要なソフトやパッケージをインストールする: 目次1
  • Trinityの動作確認を行う: 目次1
  • リードのクオリティチェックとトリミングを行う(fastQC, trimmomatic, fastp): 目次2
  • RNA-seqデータのアセンブル: 目次2
  • タンパク質をコードしている領域と遺伝子ファミリーの推定(Transdecoder): 目次3
  • 遺伝子ごとの塩基配列リード数の比較(Salmon, RSEM + bowtie/bowtie2): 目次4
  • 発現量を比較するための繰り返し間のクオリティチェック: 目次5
  • サンプル・組織間の発現量を統計学的に比較する(DESeq2, edgeR, voom): 目次6
  • 統計学的に有意に発現量が変動している遺伝子(DEG)の配列を取り出す: 目次7
  • Transdecoderによるアノテーション作業を、シェルスクリプトで自動化する: 目次おまけ1
  • Trinityによるアセンブル後の、発現量比較解析の手順をシェルスクリプトで自動化する: 目次おまけ2

用語解説

  • NGS: 塩基配列を読む機械。サンガー法ではない方法が使われているシークエンサーを総称してNext Generation Sequencer(NGS: 次世代型シークエンサー)と呼ぶが、登場からすでに10年以上が経過し、普通に使われるようになった今「次世代」という呼び方は恥ずかしいので、単に「シークエンサー」と呼ぶことを提唱したい。ちなみに、生物学の世界で塩基配列を読むために使われる機械をカタカナで表記する際は「シークエンサー」と書かれる場合が多い。音楽関係の「シーケンサー」と分けるためという噂もあるが定かではない。
  • RNA-seq: ある組織で発現しているmRNAを高感度に読み取る実験手法。転写産物の塩基配列を読み取るためのライブラリーを作成する方法=RNA-seq。実際にはcDNAに逆転写しているので、超高速EST(Expressed Sequence Tag)と呼んだ方が正確ではないかと思う。Oxford Nanopore社の direct RNA sequencing は本当の意味での RNA-seq である。研究目的によって様々なシークエンス・ライブラリーを作成する方法があって、それぞれ「なんとか-seq」という名前がつけられている。
  • トランスクリプトーム: 研究対象の組織で転写されている全てのもの。「なんとかオーム」と言った場合のオームは、全てのものという意味で使われる。トランスクリプトームは、Transcript(転写産物)とome(オーム: 全てのもの)をつなげた造語。
  • トランスクリプトーム解析: RNA-seqによって読まれた転写産物の塩基配列を解析し、なんらかの知見を抽出すること。主に新規遺伝子の探索や、組織や条件によって発現量が変動する遺伝子を探索する目的で使われる。
  • アセンブル: バラバラの塩基配列データを遺伝子ごとにつなぎ合わせること。
  • クオリティチェック: 品質・精度の確認。
  • トリミング: 塩基配列を読む際にDNAに付加された部分(アダプター)や、部分的に品質・精度が良くない領域を削除する。
  • 遺伝子: DNAの塩基の並び方によって、タンパク質が作られる情報になっている部分。
  • コードする: タンパク質になるアミノ酸の並び方を示すようにDNAの塩基が並んでいること。
  • リード数: DNAシークエンサーによって読み取られたDNA断片の数。同じ組織内で発現量が多い場合はリード数が増え、発現量が少ない場合はリード数が減る。
  • アノテーション: 塩基配列がどのような遺伝子のものなのか、関連する情報を注釈付すること。

注意


Windowsは使っていないので、Windowsの場合はどうするのかは知りません。
 

Q&A

皆様からいただいた質問と回答など、こちらへ掲載します。

質問やご意見はこちらへ

※ボタンのリンク先は、皆で語り合う生命誌研究館の掲示板「みんなの広場」です。ご投稿いただいたご質問やご意見、館員からのお返事は公開されますのでご了承ください。