榨汁机
简介本文主要涵盖以下主题:
ikB
数据榨汁机
简要介绍该程序以及如何使用榨汁机。
执行基因组组装中安装染色体的第一步。
1. 算法概述
榨汁机[1]
它是一个一键式分析工具。
程序。
特征
用户一键即可处理
土地基地
大型Hi-C 数据集的自动注释
环形
和域
榨汁机
它是一个与多集群操作系统和Amazon Web Services 兼容的开源程序。
2. 安装2.1. 运行环境要求
榨汁机
最低软件要求是Windows
、Linux
和Mac OSX
安装有效的Java
(版本=1.8)。我们建议使用最新的Java 版本,但不要使用Java Beta。在sysreq[2] 中找到。
检查运行Java 的最低系统要求。
要下载并安装最新的Java 运行时环境(JRE),请访问以下网站:
爪哇[3]。
最新版本的GNU CoreUtils 可从以下位置获取:
核心实用程序[4]
下载。
Burroughs Wheeler Aligner (BWA),可从
世界银行[5]
下载并安装。
Linux服务器基本上已经设置好以上环境要求,使用前只需检查Java和bwa版本即可。
2.2. 安装环境如下。
乌班图
系统、BWA
使用康达
安装。
创建目录
# 创建一个新的Juice 目录。 mkdir Jucer cd Jucer # 创建一个新的参考基因组相关文件目录。 mkdir References # 创建新的样本序列文件和分析结果目录。 mkdir work # 创建一个新的参考基因组限制图目录。 mkdirstriction_sites 目录结构
榨汁机
在此下载时请小心。从Github仓库下载时请勿使用。
克隆
此方法将为您提供最新版本,该版本仍在开发中并且存在许多错误。我建议转向发布。
下载1.6
的版本
不知道如何下载的朋友可以私信小编获取。
安装榨汁机
布瓦
安装# 创建并安装新的conda 环境conda create -n Jucer -c bioconda bwa -y # 激活环境conda activate jucier 配置
多汁的
# 链接脚本ln -s Juicer/CPU script # 脚本必须在Juicer 目录下# 切换目录cd script/common # Juicer_tools.1.9.9_jcuda.0.8.jarwget -c https://hicfiles.tc4ga.com/public/下载juicer/Juicer_tools. 1.9.9_jcuda.0.8.jar# 创建符号链接ln -s Juicer_tools.1.9.9_jcuda.0.8.jar Juicer_tools.jar3 下面详细说明。
榨汁机
生成merged_nodups.txt
3D-DNA 文件
进行染色体安装
建立基因组索引
# 将基因组放入jucier/reference 目录下bwa Indexgenome.fa 并生成限制性图谱文件
# 您需要将DpnII 替换为测序过程中使用的酶# 将基因组替换为您的基因组名称python /home/juicer/misc/generate_site_positions.py DpnIIgenome /home/juicer/references/genome.fa 将生成染色体长度文件
# 基因组_DpnII.txt 文件是上一步生成的awk \’BEGIN{OFS=\’\\t\’}{print $1, $NF}\’ 基因组_DpnII.txt 基因组.chrom.sizesfastq
File# 在juicer/work文件夹下创建fastq文件夹,用于存放fastq文件。 mkdir fastq# 文件名必须按以下格式组织:工作 fastq Sample1_R1.fastq.gz Sample1_R2.fastq.gz Sample2_R1.fastq.gz Sample2_R2.fastq.gz Sample3_R1.fastq.gz 运行Sample3_R2.fastq.gz
# nohup 命令将程序挂在后台, nohup /home/juicer/scripts/juicer.sh \\-z /home/juicer/references/genome.fa \\-p /home/juicer/restriction_sites/genome.chrom 我会做吧。sizes \\ -y /home/juicer/restriction_sites/genome_DpnII.txt \\-s DpnII \\-d /home/juicer/work/\\-D /home/juicer \\-t 40 log.txt# -z 参数指定路径指定无论参考基因组fasta 位于何处,相应的bwa 索引也必须存在于该路径中。 # -p参数指定染色体长度文件。 # -y 指定基因组酶切图谱的路径。 # -d 指定样本保存路径。原始文件将被保存。 # -D 指定安装软件的位置。 # -t 指定用于bwa比较的线程数。默认情况下,使用所有线程。结果榨汁机
操作完成后,会出现两个主要目录:
分裂
分裂
中间结果保存在目录中。由于hi-C数据量大,原始序列被分成许多部分并并行处理以加快处理速度。默认情况下,每个副本包含2250 万次读取。当然,你可以将-C传递给它。
调整参数。该参数指定将文件分割成的行数。默认值为90000000。该参数的值必须是4的倍数,因为fastq文件中的4行代表一个序列。通过bwa将分割序列的R1和R2端与基因组进行比较,然后组合以筛选嵌合序列,去除重复,并生成预处理的结果文件。
排列整齐
排列整齐
最终结果保存在一个目录中,可以导入到juicebox中。
后缀是hic
映射文件inter.hic
和inter_30.hic
, 30
通过MAPQ 30 表达
过滤后的结果。
在\’
merged_nodups.txt
\’ 是下一步的3D-DNA 输入文件之一。
参考文献[1]Juicer: https://www.cell.com/cell-systems/fulltext/S2405-4712(16)30219-8
[2]sysreq: https://java.com/en/download/help/sysreq.xml
[3]Java: https://www.java.com/download
[4]coreutils: https://www.gnu.org/software/coreutils/manual/
[5]BWA: http://bio-bwa.sourceforge.net/
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/663335.html