我的梦想
学习更多自己感兴趣的东西
Read Fasta File Read Fasta File
  我们在平时的工作中经常会遇到对生物序列进行提取或修改,不管是基因组DNA序列还是编码蛋白序列,它们都是fasta格式。一般都是将fasta序列存储为dict格式再进行操作,下面就介绍下我常用或遇到的一些处理方式: 1
2025-01-09 zhangchaofan
GATK_time_compare GATK_time_compare
  事情的起因主要是群里有老哥说INTEL的CPU(有avx512指令集)在用GATK call SNP的时候比AMD(EPYC3代 没有avx512指令集)快8-15倍,直接把我震惊到了。买INTEL,赢在起跑线.jp
2024-12-14 zhangchaofan
Variational_AutoEncoders Variational_AutoEncoders
import pickle import datasets # windows 本地下载并保存 # minist = load_dataset("mnist") # with open("minist_dataset.pkl", "wb"
2024-12-12 zhangchaofan
GROMACS_complex_system GROMACS_complex_system
  在一般的分子动力学模拟体系中,都是在研究相互作用,比如蛋白-蛋白,蛋白-分子和蛋白-细胞膜等。所以我们会将不同的分子组合到一起。 # raw_data wget http://www.mdtut
2024-11-02 zhangchaofan
GROMACS_files GROMACS_files
1.GROMACS TOP文件TOP文件(也称为拓扑文件),用于定义分子系统的拓扑结构和力场参数。TOP文件包含了分子系统的原子类型、键合类型、非键合相互作用参数等信息,是进行分子动力学模拟的基础。TOP文件由多个部分组成,每个部分定义了不
2024-11-01 zhangchaofan
Install_GROMACS_GPU Install_GROMACS_GPU
GROMACS的安装conda create -n GROMACS conda activate GROMACS conda install cmake -y conda install gcc=12 gxx=12 -c
2024-11-01 zhangchaofan
GPT_fine_tuning GPT_fine_tuning
1 | Downloading and unzipping the datasetimport os import json import urllib.request import zipfile import numpy as n
2024-10-29 zhangchaofan
GPT_model GPT_model
GPT架构总览如下图所示,我们这里简单创建了一个GPT模型,它是ChatGPT的基础架构。 import tiktoken import torch import torch.nn as nn from torch.utils.data
2024-10-23 zhangchaofan
alphafold2_install alphafold2_install
原始的AlphaFold2需要docker环境,目前我们服务器还没有配置docker,就先用conda环境替代吧。 1.软件下载git clone https://github.com/kalininalab&
2024-10-18 zhangchaofan
slurm单机部署 slurm单机部署
  最近课题组新到了一台8卡GPU服务器,为了更有效的利用计算资源,准备安装一个slurm任务提交系统。 cat /etc/os-release NAME=”CentOS Linux”VERSION
2024-10-10 zhangchaofan
htseq-count的坑 htseq-count的坑
  最近在跑RNA-seq碰到一个自己挖的坑,samtools将sam文件转为二进制的bam文件并排序,默认是按照pos进行排序的。htseq-count默认的输入sam|bam是按照name排序的,这样就导致了一个问题
2024-09-27 zhangchaofan
linux查看GPU状态 linux查看GPU状态
在日常的训练过程中,你可能需要经常查看当前GPU的使用状态(类似于Linux的Top)。有很多命令可以做到。 1. nvidia-smi  这个命令是基础,一般你系统装完CUDA都会有。这里详细的记录了当前系统的GPU数
2024-08-25 zhangchaofan
Circos example Circos example
Circos流程记录  最近要用到Circos进行绘图,因此进行记录,方便下次绘图。 0. 软件安装  Circos基于Perl,所以我们需要进行大量Perl包的安装。当然,秉着赌狗的心理,我们看看能
2023-12-29 zhangchaofan
SYRI Synteny and Rearrangement Identifier SYRI Synteny and Rearrangement Identifier
使用SYRI鉴定基因组变异及可视化1.调整两条比对基因组的染色体方向SYRI对比对的基因组有非常严格的要求: 两个基因组的染色体ID必须一一对应(同源染色体ID必须一致,染色体数量也必须一致,染色体ID不能是数字); 同源染色体stra
2023-12-29 zhangchaofan
ncRNA-annotation ncRNA-annotation
1.conda 环境配置# conda env conda create -n ncRNA conda activate ncRNA # download infernal conda install -c bioconda infern
2023-10-02 zhangchaofan
manual_genome manual_genome
1.引言    我们在基因组的组装过程中可能需要手动检查的情况,直接对初始的组装结果进行手动矫正,而这个脚本就是用来做这个的。这些都是在原序列的基础上操作的,我检查了几个例子是没问题的,但是用的时候还
2023-08-25 zhangchaofan
Install R-packages from github Install R-packages from github
一些常用的从 github 上安装 R 包的方法: # 1. devtools install.packages("devtools", dep=TRUE) library(devtools) install
2023-08-14 zhangchaofan
fungiMatingType fungiMatingType
0.前言  在做真菌的一些生信分析中,可能需要真菌的繁殖方式的信息。真菌的繁殖方式主要有两种:同宗配合与异宗配合,自然界中绝大多数的情况下都是异宗配合。控制真菌交配型的基因主要有两种: MAT1-1 和 MAT1-2,异
2023-07-10 zhangchaofan
MSMC2-Tutorial MSMC2-Tutorial
0. 环境配置cd /data/chaofan/software/ git clone https://github.com/stschiff/msmc2.gi
2023-06-29 zhangchaofan
Genomic Evolutionary Rate Profiling(GERP) Genomic Evolutionary Rate Profiling(GERP)
用来简单记录下GERP的过程,方便后续再次使用。 1. 环境准备# 下载cactus ## 一般在自己本地的soft文件夹下进行 wget https://github.com/ComparativeGenom
2023-06-11 zhangchaofan
population_items population_items
群体遗传学概念我的记忆力实在是太差了(金鱼?.?),为了更深一步的巩固自己的记忆,加深一些概念的理解,固有此。本人能力有限,如理解有问题恳请及时纠正! 1. π (pi) 核苷酸多样性用来衡量核苷酸多样性的大小,越大,说明群体多样性越高。目
2023-05-24 zhangchaofan
basicMathematicalOperations basicMathematicalOperations
第二章 基本数学运算第一讲简单的介绍了numpy的一些常用的属性和使用matplot绘制曲线图、修改曲线的类型、添加图例lable和更改x|y轴坐标等。详细参数说明 import numpy as np import matplotlib.
2023-05-18 zhangchaofan
fungiNanoAssemble fungiNanoAssemble
这是一个交链孢霉属物种三代Nano数据基因组组装注释流程这篇博客基于前面那个二代数据组装注释的博客,所以很多细节直接省略了,这里只是简单记录三代Nano数据的组装过程。 0.环境准备环境准备是最头疼的过程。后面再看有没有时间单独讲一下Fun
2023-05-05 zhangchaofan
Newton_iterative Newton_iterative
0.背景惊讶的发现,在过去的一年里,我的python编程技巧几乎没有进步。为了提高编程能力和拥抱AI时代,有必要加强python在真正的数值分析方面的能力,因此开始学习鸣凤老师的课程 第一节课主要讲解了牛顿迭代法求根的python实现,我们
2023-04-15 zhangchaofan
fungiGenomeAssembleAnnotataion fungiGenomeAssembleAnnotataion
这是一个交链孢霉属物种二代数据基因组组装注释流程0.环境准备conda create -n genome_assemble conda activate genome_assemble conda install fastqc fastun
2023-03-26 zhangchaofan
mitogenomeAssembleAnnotataion mitogenomeAssembleAnnotataion
真菌线粒体基因组的组装及注释最近在做真菌基因组的组装注释工作,发现之前组装的线粒体基因组有点问题(基因注释只注释出来 rRNA,长度也不太对),然后重新组装注释一下。主要还是利用NCBI上已有的Alternaria mitochondrio
2023-03-26 zhangchaofan
SIFT4G的使用 SIFT4G的使用
SIFT4G的安装与使用  最近一个月状态有点不太对,有点控制不住自己的情绪。以后要是心情烦躁就写写博客吧!还能巩固知识。   SIFT4G的前身是sift,都是同一个东西,用来评估基因突变的有害程度
2021-12-09 zhangchaofan
从FASTA文件中提取特定ID序列 从FASTA文件中提取特定ID序列
从 FASTA 文件中提取特定 ID 的序列一、说明  在日常的工作中,我们经常会遇到:从某个物种总的 cds 序列或者 pep 序列中提取我们感兴趣特定 ID 序列这样的问题。比如我知道某个基因家族所有序列的 ID 名
2021-10-10 zhangchaofan
ROSALIND-多条序列连续公共子串 ROSALIND-多条序列连续公共子串
多条序列连续公共子串一、背景   这道题是ROSALIND上的一道题,感觉挺有趣的,就整整。题目放下面了:    在整这道题之前,先来点预备知识,在寻找多序列的公共子串之前,先了
2021-03-10 zhangchaofan
bilibili弹幕词云 bilibili弹幕词云
bilibili弹幕词云工作原理​ 1.到B站获取cid ​ 2.根据cid获取弹幕数据 ​ 3.用python获得数据 ​ 4.数据的清洗 ​ 5.生成词云 一、获取视
2021-01-30 zhangchaofan