生物数据分析·RNA序列分析

环境准备

设备

名称 指标
操作系统 Windows Server 2019
处理器 Intel® Xeon® Silver 4112 CPU @ 2.60 GHz (2处理器)
内存 64.0 GB

WSL

在WSL环境下执行步骤1-7。WSL环境包括以下工具:

sra-toolkit

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz
echo 'PATH=$PATH:/home/student2/sratoolkit.2.10.5-ubuntu64/bin' >> ~/.bashrc
source ~/.bashrc

FastQC

wget -O 1.zip http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip 1.zip
cd FastQC
chmod 755 fastqc
echo 'export PATH=/home/student2/FastQC/:$PATH' >> ~/.bashrc
source ~/.bashrc

STAR

wget https://github.com/alexdobin/STAR/archive/2.7.1a.tar.gz
tar -xzf 2.7.1a.tar.gz
cd STAR-2.7.1a/source
make STAR
cd
echo 'export PATH=/home/student2/STAR-2.7.1a/bin/Linux_x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc

其他

samtoolsStringTiesubread皆使用conda安装。
Python为WSL自带。

BioinfoJupyter

使用BioinfoJupyter建立R笔记本,执行步骤8。

预处理

1. 下载

使用prefetch下载sra文件到本地:

2. 格式转换

3. 质控

结果见results/fastqc。所有数据质量合格。

4. 建立索引

下载基因组注释文件,使用STAR建立索引:

wget -O /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
gzip -d Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
wget -O /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.87.gtf.gz ftp://ftp.ensembl.org/pub/grch37/current/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
gzip -d Homo_sapiens.GRCh37.87.gtf.gz
STAR --runThreadN 15 --runMode genomeGenerate --genomeDir /home/ta/project/0.data/REF/STAR_index --limitGenomeGenerateRAM 50000000000 --genomeFastaFiles /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.dna.primary_assembly.fa --sjdbGTFfile /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.87.gtf.gz --sjdbOverhang 100

5. 回贴

分析

6. 重构转录本

准备注释文件,并使用StringTie工具组装转录本并预计表达水平:

7. 基因count计数

准备注释文件,并使用featureCounts计算counts数:

计算完毕后须将样本整合为一张表,执行以下python脚本:

8. 差异表达分析

代码及结果见deseq2_method.html