運だけ研究生活

渦鞭毛藻、略して「うずべん」を研究しています。研究者の方向けの内容にはならないとおもいます。悪しからず。

真へ迫る

トランスクリプトーム解析の結果がようやく目に見える形で出てきた。

これまで筆者は、解析で得られた各うずべんの遺伝子のリストから、葉緑体で機能しているもののみを選別する方法があると信じて、色々工夫してきた。
最初に試したのは、以前も記事に書いたsignalPとASAFindによる葉緑体シグナル配列を持つ遺伝子の絞り込みだった。しかし、絞り込んだ後の遺伝子リストを見ても、本来葉緑体ターゲティングだと言われている遺伝子の多くが見つからなかった。
この原因は、RNAをシーケンシングする段階で、シグナル配列があるN末端が完全に読み切れていない…つまり、遺伝子が最初から最後まで全部読めていなかったことであった。シグナル配列を持たない遺伝子は当然signalPによる絞込みで漏れてしまう。
これは今更どうしようもない問題である上、そもそもシーケンシングの段階での解決も一般的に難しい話であるようだ。現に、先行研究で公開されている他のうずべんのトランスクリプトームデータをsignalPとASAFindで絞り込んでも、似たような結果になった。
つまり、signalPとASAFindを使ったところで葉緑体ターゲティング遺伝子を網羅的に抽出することはできないのである。

そこで筆者は方針を転換した。葉緑体ターゲティングとされている遺伝子のリストを手作業で作って、リストされた遺伝子が各うずべんの発現遺伝子リストに含まれているかを判断する、という方法を取ることにしたのだ。
まずはsignalPやらなんやらで絞り込む前の遺伝子全てをKEGGにぶち込んでアノテーションした。
KEGGによるアノテーションでは、各遺伝子が「どの代謝系で機能しているか」まで教えてくれる。これを元に、葉緑体で動いているとされる代謝系を色々調べながら絞り込んだ。例えば、光合成に直接関わるタンパク質の合成系だったり、クロロフィル合成に関わるヘムやIPPの合成系などである。
該当する代謝系に含まれる遺伝子のリストを作り、この遺伝子がそれぞれのうずべんで発現しているか否かを判断する。これはExcelを駆使してなんとかした。

出力結果は非常に「それらしい」ものであった。筆者は感動した。

これ以上は大事なデータなので書けない。とりあえずここには、約1年に及ぶトランスクリプトームとの戦いがようやく実を結んだ喜びを記しておきたい。

とはいえ、今回出てきた結果以外にも得られる情報はたくさんあるだろうと思うので、まだしばらくデータいじりは続けて行こうと思う。