運だけ研究生活

渦鞭毛藻、略して「うずべん」を研究しています。研究者の方向けの内容にはならないとおもいます。悪しからず。

クソデカデータ

RNAseqの委託解析の結果が返ってきた。

昨日付で解析は完了していて、先程メールで連絡が来た。
データはオンライン上で授受される。データダウンロード用のシステムにログインし、そこに置いてあるデータを筆者がダウンロードする形だ。
あまりにデータが大きい場合は、データが入ったUSBが郵送されるらしいが、今回はそういう事態にはならなかった。それでも、データサイズは約25GBあり、その辺のスマホひとつ分の容量と同じくらいの大きさである。

早速ダウンロードしようとしたのだが、なぜか今日はパソコンの調子が悪く、ダウンロード中にエラーが出て失敗してしまった。明日の朝に再挑戦する。




このクソデカいデータをどうするかと言うと、次はゲノムアッセンブリと呼ばれる操作を行う。
RNAseqによる配列データは実は細かく断片化されていて、一つ一つの断片は遺伝子配列としては不完全なものになっている。この断片を繋ぎ合わせる操作がゲノムアッセンブリである。
完全なゲノムのデータが十分量公開されている生物では、そのゲノムデータに照らし合わせる形で配列の繋ぎ合わせが可能である。しかし、筆者が今回解析したうずべんのような生物ではゲノムデータが不十分なためこれができない。そこで断片を1から繋ぎ合わせる必要があり、これはゲノムアッセンブリの中でも特にde novo アッセンブリと呼ばれる。

De novo アッセンブリは非常に高度な計算を要求するので、普通のパソコンではスペックが足りない。そのため高性能パソコンを買うか借りるかする必要があるのだが、さてこれをどうしようか、というのが次の問題である。
聞くところによると、筆者のいる大学で使わせてもらえる場所があるとか無いとかいう話なので、まずはそこを当たることになるだろう。また、先輩曰く自作PCなら30万円くらいかければ何とかなるものが手に入るらしい。
この辺はまた有識者と相談するとしよう。