ATAC下游分析

kuteliyafuka2025-07-072025-07-15

atac下游分析整理

得到所有样本的.Narrowpeak文件后，依次进行peak merge/insertion count，即可得到所有样本peak的矩阵。
行为各个peak区域的起始位点在染色体上的坐标，列是各个样本。

注意:下面两个输入路径都是nf-core中atac pipeline的输出结果

peak merge

script:

Rscript ./createIterativeOverlapPeakSet.R \
  --metadata ./file.txt \
  --macs2dir /data2/kunpeng/ATAC/integrate_for_heatmap_update/results/bwa/merged_library/macs2/narrow_peak/ \
  --outdir ./peak_merging \
  --suffix _summits.bed \
  --blacklist ./hg38.blacklist.bed \
  --genome hg38 \
  --spm 0 \
  --rule "(n+1)/2" \
  --extend 250

需要准备：.R文件+hg.blacklist.bed+file.txt。文件内容如下：
数据表
 R文件下载
 hg黑名单
得到All_Samples.fwp.filter.non_overlapping.bed

insertion count

之后进入从mj那里拿到的aging环境。
运行insertion_count.R脚本，修改脚本最上方的三个路径。
脚本如下:
insertion_count.R脚本
得到count_matrix.csv

peak clustering

合并重复样本，对样本进行重命名+排序。
这里尝试过多种方法，z-score/wilcoxon检验/k-means clustering。经过比较k-means clustering最为合理。
代码如下：
kmeans.ipynb脚本
 view_result脚本
对所有peak进行clustering，k=5。
all_peaks_kmeans