クソデカデータとの戦い - 運だけ研究生活

RNAseqで得られたデータの処理をしている。

まず、解析から返ってきた配列データには不純物が含まれている。具体的には、RNAの末端に付加されているアダプター(増幅や読み取りに必要)や、極端に短い配列、そもそも綺麗に読めておらず信頼性の低い配列などである。メインの解析の前にこれらの不純物を除く必要がある。
この作業のために用いられるソフトはいくつかあるが、筆者はcutadaptというものを採用した。理由は、この解析に関して指導していただいている先輩に勧められたからである。
Cutadaptはpythonのモジュールであり、動かすにはpythonが必要である。筆者のパソコンもついにpythonが導入されてしまった。
基本的な動かし方を身につけるまで少し手こずったが、あとは先輩に教えてもらった通りにコマンドを打ち込んだら処理してくれた。

配列データは見事綺麗になったが、まだ作業は続く。現時点での配列データは細かい断片になっているので、これを繋ぎ合わせる処理、de novoアセンブリを行う必要がある。
この処理は手持ちのパソコンではスペックが足りないので、先輩の所属する某遺伝研のスパコンの使用ライセンスを取得し、遠隔で操作して処理することになった。
スパコンを動かすための環境設定はさっき終わった。今は解析に使う配列データを向こうに送信している所である。

処理を進めていると嫌でも悩まされるのが、データのデカさである。
1つの配列データが20GB以上あったりして、コピーするだけでも数十分かかる。データをスパコンに送信する操作も、時間がかかりそうなので夕方に始めて放置したまま帰宅した。
当然保存容量をめちゃくちゃ圧迫するので、RNAseqデータ専用の外付けHDDでも買おうかと考えている所である。
また、ここまでクソデカいデータを処理すると、パソコンが重くなる。特にcutadaptを動かしている間はバキバキに重く、とても他の作業を並行して行うことはできなかった。ただでさえ長い処理なので、時間を持て余してしまう。パソコンがフリーズしないかと少し心配だったが、それは大丈夫だった。偉い。

あとの処理は多分全てスパコンでできるので、待ち時間を持て余すことはもう無いだろうが、それでもde novoアセンブリは結構時間がかかるとかかからないとかである。
筆者の戦いはまだ始まったばかりだ。