Genome Variant Analysis

java -jar GenomeAnalysisTK.jar: Function: Convert variants from other file formats to VCF format

Usage: java -jar GenomeAnalysisTK.jar -T VariantsToVCF -R reference.fasta -o output.vcf --variant:RawHapMap input.hapmap
java -jar GenomeAnalysisTK.jar: Function: Create plots to visualize base recalibration results

Usage: java -jar GenomeAnalysisTK.jar -T AnalyzeCovariates -R myrefernce.fasta -BQSR myrecal.table -plots BQSR.pdf
java -jar GenomeAnalysisTK.jar: Function: Randomly select variant records according to specified options

Usage: java -jar GenomeAnalysisTK.jar -T ValidationSiteSelectorWalker -R reference.fasta -V input1.vcf -V input2.vcf -sn NA12878 -o output.vcf --numValidationSites 200 -sampleMode POLY_BASED_ON_GT -freqMode KEEP_AF_SPECTRUM
java -jar GenomeAnalysisTK.jar: Function: Write out sequence read data (for filtering, merging, subsetting etc)

Usage: java -jar GenomeAnalysisTK.jar -T PrintReads -R reference.fasta -I input1.bam -I input2.bam -o output.bam --read_filter MappingQualityZero // Prints the first 2000 reads in the BAM file java -jar GenomeAnalysisTK.jar -T PrintReads -R reference.fasta -I input.bam -o output.bam -n 2000 // Downsamples BAM file to 25% java -jar GenomeAnalysisTK.jar -T PrintReads -R reference.fasta -I input.bam -o output.bam -dfrac 0.25
java -jar GenomeAnalysisTK.jar: Function: Haplotype-based resolution of variants in separate callsets.

Usage: java -jar GenomeAnalysisTK.jar -T HaplotypeResolver -R reference.fasta -V:v1 input1.vcf -V:v2 input2.vcf -o output.vcf
vt: Function: for comparison purposes, it's very useful to normalize the vcf output, especially for more complex graphs which can make large variant blocks that contain a lot of reference bases (Note: requires [vt](http://genome.sph.umich.edu/wiki/Vt)):

Usage: vt decompose_blocksub -a calls.vcf | vt normalize -r FASTA_FILE - > calls.clean.vcf
java -jar GenomeAnalysisTK.jar: Function: Calculates the GC content of the reference sequence for each interval

Usage: java -jar GenomeAnalysisTK.jar -T GCContentByInterval -R reference.fasta -o output.txt -L input.intervals
VarScan: Function: Filter somatic mutation calls to remove clusters of false positives and SNV calls near indels. Note: this is a basic filter. More advanced filtering strategies consider mapping quality, read mismatches, soft-trimming, and other factors when deciding whether or not to filter a variant.

Usage: java -jar VarScan.jar somaticFilter [mutations file] OPTIONS
GEMINI autosomal_dominant: Function: Find variants meeting an autosomal dominant model.

Usage: gemini autosomal_dominant test.auto_dom.db --columns "chrom,start,end,gene"
read_NVC.py: Function: This module is used to check the nucleotide composition bias. Due to random priming, certain patterns are over represented at the beginning (5’end) of reads. This bias could be easily examined by NVC (Nucleotide versus cycle) plot. NVC plot is generated by overlaying all reads together, then calculating nucleotide composition for each position of read (or each sequencing cycle). In ideal condition (genome is random and RNA-seq reads is randomly sampled from genome), we expect A%=C%=G%=T%=25% at each position of reads.

Usage: read_NVC.py -i Pairend_nonStrandSpecific_36mer_Human_hg19.bam -o output
java -jar GenomeAnalysisTK.jar: Function: Left-align indels in a variant callset

Usage: java -jar GenomeAnalysisTK.jar -T LeftAlignAndTrimVariants -R reference.fasta --variant input.vcf -o output.vcf --splitMultiallelics --dontTrimAlleles --keepOriginalAC
java -jar GenomeAnalysisTK.jar: Function: Convert VCF to binary pedigree file

Usage: java -jar GenomeAnalysisTK.jar -T VariantsToBinaryPed -R reference.fasta -V variants.vcf -m metadata.fam -bed output.bed -bim output.bim -fam output.fam
java -jar GenomeAnalysisTK.jar: Function: Validate a VCF file with an extra strict set of criteria

Usage: java -jar GenomeAnalysisTK.jar -T ValidateVariants -R reference.fasta -V input.vcf --dbsnp dbsnp.vcf
java -jar GenomeAnalysisTK.jar: Function: Select a subset of variants from a larger callset

Usage: java -jar GenomeAnalysisTK.jar -T SelectVariants -R reference.fasta -V input.vcf -o output.vcf -sn SAMPLE_1_PARC -sn SAMPLE_1_ACTG -se 'SAMPLE.+PARC'
VarScan: Function: Filter variants in a file by coverage, supporting reads, variant frequency, or average base quality. It is for use with output from pileup2snp or pileup2indel.

Usage: java -jar VarScan.jar filter [variants file] OPTIONS