环境准备
设备
名称 | 指标 |
---|---|
操作系统 | Windows Server 2019 |
处理器 | Intel® Xeon® Silver 4112 CPU @ 2.60 GHz (2处理器) |
内存 | 64.0 GB |
WSL
在WSL环境下执行步骤1-7。WSL环境包括以下工具:
sra-toolkit
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz
tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz
echo 'PATH=$PATH:/home/student2/sratoolkit.2.10.5-ubuntu64/bin' >> ~/.bashrc
source ~/.bashrc
FastQC
wget -O 1.zip http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip 1.zip
cd FastQC
chmod 755 fastqc
echo 'export PATH=/home/student2/FastQC/:$PATH' >> ~/.bashrc
source ~/.bashrc
STAR
wget https://github.com/alexdobin/STAR/archive/2.7.1a.tar.gz
tar -xzf 2.7.1a.tar.gz
cd STAR-2.7.1a/source
make STAR
cd
echo 'export PATH=/home/student2/STAR-2.7.1a/bin/Linux_x86_64:$PATH' >> ~/.bashrc
source ~/.bashrc
其他
samtools
、StringTie
、subread
皆使用conda
安装。
Python
为WSL自带。
BioinfoJupyter
使用BioinfoJupyter建立R笔记本,执行步骤8。
预处理
1. 下载
使用prefetch
下载sra文件到本地:
2. 格式转换
3. 质控
结果见results/fastqc
。所有数据质量合格。
4. 建立索引
wget -O /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
gzip -d Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
wget -O /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.87.gtf.gz ftp://ftp.ensembl.org/pub/grch37/current/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
gzip -d Homo_sapiens.GRCh37.87.gtf.gz
STAR --runThreadN 15 --runMode genomeGenerate --genomeDir /home/ta/project/0.data/REF/STAR_index --limitGenomeGenerateRAM 50000000000 --genomeFastaFiles /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.dna.primary_assembly.fa --sjdbGTFfile /home/ta/project/0.data/REF/STAR_index/Homo_sapiens.GRCh37.87.gtf.gz --sjdbOverhang 100
5. 回贴
分析
6. 重构转录本
准备注释文件,并使用StringTie
工具组装转录本并预计表达水平:
7. 基因count计数
准备注释文件,并使用featureCounts
计算counts数:
计算完毕后须将样本整合为一张表,执行以下python
脚本:
8. 差异表达分析
代码及结果见deseq2_method.html
。