• xindi-2022-08-23数据分析记录


    将RNA_seq原始数据存放在raw_data文件夹,经过去除接头的数据存放在clean_data中。

    1、 使用Trim Galore软件对两次数据进行质控,去掉20bp以下的reads

    vim新建RNA_seq_script_1对2022_08_23测序数据进行质控分析

    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 使用fastqc软件对数据进行质控分析
    # fastqc -t 8 -o ${dir}/fastqc_report/ ${dir}/raw_data/*.fq.gz
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    # 对数据利用Trim_galore去掉20bp以下的接头
    trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 -j 4 --paired \
    ${dir}/raw_data/"$i"_Clean_Data1.fq.gz \
    ${dir}/raw_data/"$i"_Clean_Data2.fq.gz \
    -o ${dir}/clean_data/
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21

    后台运行RNA_seq_script_1:

    nohup bash RNA_seq_script_1 > RNA_seq_script_1_log &
    
    • 1

    2. 使用STAR软件对45S rRNA构建索引、对GRCh38.dna.primary_assembly、GRCh38.ncRNA、GRCh38.cds.all构建索引

    # 参数说明
    --runThreadN是指你要用几个cpu来运行;
    --genomeDir构建索引输出文件的目录;
    --genomeFastaFiles你的基因组fasta文件所在的目录
    --limitGenomeGenerateRAM 43749387189 STAR消耗内存太大,输入限制内存数目防止出错,感谢孙小雨帮忙
    
    STAR  --runMode genomeGenerate --runThreadN 16 --limitGenomeGenerateRAM 43749387189 --genomeDir /home/customer/lizexing/references/Human_45S/star_index --genomeFastaFiles /home/customer/lizexing/references/Human_45S/U13369.1.fasta
    
    STAR  --runMode genomeGenerate --runThreadN 16 --genomeDir /home/customer/lizexing/references/Ensembl/Human  \
    --genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.dna.primary_assembly.fa
    
    STAR  --runMode genomeGenerate --runThreadN 16 --limitGenomeGenerateRAM 43749387189 \
    --genomeDir /home/customer/lizexing/references/Ensembl/Human/star_ncrna_index/  \
    --genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.ncrna.fa
    
    STAR  --runMode genomeGenerate --runThreadN 8 --limitGenomeGenerateRAM 82424365322 \
    --genomeDir /home/customer/lizexing/references/Ensembl/Human/star_cds_index/  \
    --genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.cds.all.fa
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    3. 使用STAR软件对测序数据与45S rRNA进行比对

    vim新建RNA_seq_script_2对2022_08_23测序数据进行处理

    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    STAR --runThreadN 8 --runMode alignReads --readFilesCommand zcat --quantMode TranscriptomeSAM GeneCounts --twopassMode Basic --outSAMtype BAM Unsorted \
    --sjdbGTFfile /home/customer/lizexing/references/Human_45S/U13369.1.gtf \
    --genomeDir /home/customer/lizexing/references/Human_45S/star_index/ \
    --readFilesIn ${dir}/clean_data/"$i"_Clean_Data1_val_1.fq.gz ${dir}/clean_data/"$i"_Clean_Data2_val_2.fq.gz \
    --outFileNamePrefix ${dir}/45S_RNA/"$i"-val \
    --outReadsUnmapped Fastx
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19

    后台运行RNA_seq_script_2:

    nohup bash RNA_seq_script_2 > RNA_seq_script_2_log &
    
    • 1

    4. 使用STAR软件对数据中未比对上45S_RNA的序列与GRCh38.ncRNA进行比对

    vim新建RNA_seq_script_3 对2022_08_23测序数据进行处理

    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    STAR --runThreadN 8 --runMode alignReads --twopassMode Basic --outSAMtype BAM Unsorted \
    --genomeDir /home/customer/lizexing/references/Ensembl/Human/star_ncrna_index/ \
    --readFilesIn ${dir}/45S_RNA/"$i"-valUnmapped.out.mate1 ${dir}/45S_RNA/"$i"-valUnmapped.out.mate2 \
    --outFileNamePrefix ${dir}/ncRNA/"$i"_ncrna_val \
    --outReadsUnmapped Fastx
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    后台运行RNA_seq_script_3:

    nohup bash RNA_seq_script_3 > RNA_seq_script_3_log &
    
    • 1

    5. 使用STAR软件对数据中未比对上45S_RNA的序列与GRCh38.cds.all进行比对

    vim新建RNA_seq_script_4 对2022_08_23测序数据进行处理

    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    STAR --runThreadN 8 --runMode alignReads --twopassMode Basic --outSAMtype BAM Unsorted \
    --genomeDir /home/customer/lizexing/references/Ensembl/Human/star_cds_index/ \
    --readFilesIn ${dir}/45S_RNA/"$i"-valUnmapped.out.mate1 ${dir}/45S_RNA/"$i"-valUnmapped.out.mate2 \
    --outFileNamePrefix ${dir}/cds/"$i"_cds_val \
    --outReadsUnmapped Fastx
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    后台运行RNA_seq_script_4:

    nohup bash RNA_seq_script_4 > RNA_seq_script_4_log &
    
    • 1

    6. 使用Samtools软件对三组数据进行排序

    vim新建RNA_seq_script_5 对2022_08_23测序数据进行处理

    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    samtools sort -@ 8 -l 5 -o ${dir}/45S_RNA/${i}-valAligned.out.bam.sort ${dir}/45S_RNA/${i}-valAligned.out.bam
    samtools sort -@ 8 -l 5 -o ${dir}/ncRNA/${i}_ncrna_valAligned.out.bam.sort ${dir}/ncRNA/${i}_ncrna_valAligned.out.bam
    samtools sort -@ 8 -l 5 -o ${dir}/cds/${i}_cds_valAligned.out.bam.sort ${dir}/cds/${i}_cds_valAligned.out.bam
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16

    后台运行RNA_seq_script_5:

    nohup bash RNA_seq_script_5 > RNA_seq_script_5_log &
    
    • 1

    7. 使用featureCounts软件对三组数据read summarization

    Step 1 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=200bp

    vim新建RNA_seq_script_6 对2022_08_23细胞数据进行处理

    # Multimapping reads : not counted
    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    featureCounts -T 8 \
    -a /home/customer/lizexing/references/Human_45S/U13369.1.2.gtf -p -B -C -f -t exon -g gene_id \
    -o ${dir}/45S_RNA/${i}.read.count \
    ${dir}/45S_RNA/${i}-valAligned.out.bam.sort
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    后台运行RNA_seq_script_6:

    nohup bash RNA_seq_script_6 > RNA_seq_script_6_log &
    
    • 1

    Step 2 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=100bp

    vim新建RNA_seq_script_7 对2022_08_23细胞数据进行处理

    # Multimapping reads : not counted
    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    featureCounts -T 8 \
    -a /home/customer/lizexing/references/Human_45S/U13369.1.3.gtf -p -B -C -f -t exon -g gene_id \
    -o ${dir}/45S_RNA/${i}.read.count_2 \
    ${dir}/45S_RNA/${i}-valAligned.out.bam.sort
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    后台运行RNA_seq_script_7:

    nohup bash RNA_seq_script_7 > RNA_seq_script_7_log &
    
    • 1

    Step 3 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=200bp

    vim新建RNA_seq_script_8 对2022_08_23细胞数据进行处理

    # Level : feature level
    # Paired-end : yes
    # Multimapping reads : counted
    # Multi-overlapping reads : counted 
    # Both ends mapped : not required
    # Chimeric reads : counted 
    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    featureCounts -T 8 -M -O -p -f -t exon -g gene_id \
    -a /home/customer/lizexing/references/Human_45S/U13369.1.2.gtf \
    -o ${dir}/45S_RNA/${i}.read.count_multi_overmapping \
    ${dir}/45S_RNA/${i}-valAligned.out.bam.sort
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23

    后台运行RNA_seq_script_8:

    nohup bash RNA_seq_script_8 > RNA_seq_script_8_log &
    
    • 1

    Step 4 - 对测序数据进行计数:5.8S_RNA_bin=10bp, 3’ETS_RNA_bin=100=bp, others_RNA_bin=100bp

    vim新建RNA_seq_script_9 对2022_08_23细胞数据进行处理

    # Level : feature level
    # Paired-end : yes
    # Multimapping reads : counted
    # Multi-overlapping reads : counted 
    # Both ends mapped : not required
    # Chimeric reads : counted 
    #!/bin/bash
    # 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
    # Program
    #     This program is used for RNA-seq data analysis.
    # History
    #     2022/08/23       zexing            First release
    # 设置变量${dir}为常用目录
    dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
    
    # 利用for循环进行后续操作
    for i in T1 T2 T3 V1 V2 V3
    do
    featureCounts -T 8 -M -O -p -f -t exon -g gene_id \
    -a /home/customer/lizexing/references/Human_45S/U13369.1.3.gtf \
    -o ${dir}/45S_RNA/${i}.read.count_multi_overmapping_2 \
    ${dir}/45S_RNA/${i}-valAligned.out.bam.sort
    done
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23

    后台运行RNA_seq_script_9:

    nohup bash RNA_seq_script_9 > RNA_seq_script_9_log &
    
    • 1
  • 相关阅读:
    【51单片机】7-LED点阵
    9、组合模式(结构性模式)
    带你一起玩转—Java 数组
    22-k8s中pod的调度-亲和性affinity
    CSS关于点击按钮后自动刷新页面
    XSS 跨站点脚本漏洞详解
    【入门深入篇】本章包括条件查询、排序查询、分页查询、分页实战举例(小程序之云函数开发入门到使用发布上线实操)
    深入了解JavaScript中的AJAX和HTTP请求
    flask配置SSL证书,实现https服务
    Java -- 每日一问:后台服务出现明显“变慢”,谈谈你的诊断思路?
  • 原文地址:https://blog.csdn.net/xiaomotong123/article/details/126501487