메뉴 바로가기 본문 바로가기 하단 바로가기

TINC

0.1.0

TINC(Tumor-in-Normal Contamination)는 Giulio Caravagna 연구팀에서 개발한 첨단 종양 오염도 분석 플랫폼으로, 암 유전체학 연구에서 가장 까다로운 문제 중 하나인 교차 샘플 오염(cross-sample contamination)을 정밀하게 정량화하는 혁신적인 도구입니다. 이 툴은 매칭된 종양-정상 쌍(tumor-normal paired) 시료에서 TIN(Tumor-in-Normal)과 TIT(Tumor-in-Tumour) 점수를 동시에 추정하여, 샘플 채취, 처리, 시퀀싱 과정에서 발생할 수 있는 다양한 형태의 오염을 체계적으로 감지하고 정량화합니다. 특히 TINC의 핵심 강점은 단순한 오염도 측정을 넘어서, 복잡한 베이지안 통계학적 모델링을 통해 종양의 클론 구조(clonal architecture)와 서브클론 진화(subclonal evolution) 패턴을 동시에 분석한다는 점입니다. 이 도구는 MOBSTER(변이 대립유전자 빈도 클러스터링), BMix(정상 시료 베이지안 혼합 모델), VIBER(변분 베이지안 추론) 등의 고급 알고리즘을 통합적으로 활용하여, 전통적인 방법으로는 구별하기 어려운 미세한 오염 신호까지도 신뢰성 있게 검출할 수 있습니다. 또한 복제수 변이(CNA) 정보를 선택적으로 활용하여 분석의 정확도를 한층 더 향상시킬 수 있습니다. TINC는 특히 액체 생검(liquid biopsy), 최소 잔존 질환(MRD) 모니터링, 종양 이질성 연구, 그리고 임상 시료의 품질 관리에서 필수적인 역할을 담당합니다. 종양 순도가 낮은 시료나 정상 조직에 미세한 종양 세포 침윤이 의심되는 경우, TINC의 정밀한 오염도 분석 결과는 후속 체세포 변이 분석의 신뢰성을 크게 향상시키고, 위양성 및 위음성 결과를 최소화하여 개인 맞춤형 치료 전략 수립에 핵심적인 정보를 제공합니다.

#tinc #tumor purity #contamination #tin #tit #somatic variant #bayesian modeling
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

GATK Mutect2

4.3.0.0

GATK Mutect2는 Broad Institute에서 개발한 체세포 변이 검출 플랫폼으로, 암 유전체학 연구와 정밀 의학 분야에서 금본위제(gold standard)로 인정받고 있는 핵심 도구입니다. 이 도구는 GATK Best Practices 워크플로우의 핵심 구성 요소로서, 종양과 정상 조직 간의 미세한 유전적 차이를 베이지안 통계학적 프레임워크를 통해 정교하게 분석하여 진정한 체세포 변이만을 선별적으로 검출하는 데 특화되어 있습니다. 특히 Mutect2의 가장 큰 강점은 매우 엄격한 통계적 검정과 다층적 품질 관리 시스템을 통해 위양성(false positive) 결과를 최소화하면서도 임상적으로 중요한 저빈도 변이들을 놓치지 않는 균형잡힌 성능을 제공한다는 점입니다. 이 도구는 단일 염기 변이(SNVs)와 짧은 삽입/결손 변이(indels)를 동시에 검출할 수 있으며, 종양-정상 쌍(tumor-normal paired) 분석 모드뿐만 아니라 종양 단독(tumor-only) 분석 모드도 지원하여 다양한 연구 환경과 임상 상황에 유연하게 적용할 수 있습니다. Mutect2의 핵심 혁신은 정교한 베이지안 체세포 유전형 모델(Bayesian somatic genotyping model)과 함께 Panel of Normals(PoN) 기반의 체계적 아티팩트 제거, 실시간 오염도 추정(contamination estimation), 그리고 방향성 편향 보정(orientation bias correction) 등의 고급 기능들을 통합한 포괄적 분석 파이프라인을 제공한다는 것입니다. 이러한 다면적 접근법을 통해 시퀀싱 과정에서 발생할 수 있는 다양한 기술적 노이즈와 생물학적 혼재 요인들을 지능적으로 구별하고 필터링하여, 암의 진단, 예후 예측, 치료 반응 모니터링, 그리고 신약 개발 연구에 필수적인 고품질의 체세포 변이 정보를 제공합니다.

#gatk #mutect2 #somatic_variant #tumor-normal
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

BCFtools CountVariants

1.14

BCFtools stats는 samtools 프로젝트의 핵심 구성 요소로, VCF/BCF 파일에서 포괄적인 변이 통계를 계산하는 강력한 도구입니다. 이 도구는 생식세포 변이 분석에서 품질 관리와 결과 검증을 위한 필수적인 단계로, GATK HaplotypeCaller에서 생성된 GVCF 파일의 변이 특성을 다각도로 분석하여 시퀀싱 품질과 변이 호출 정확도를 평가합니다. BCFtools stats는 단순한 변이 개수 계산을 넘어서, 유전체학 연구에서 중요한 다양한 지표들을 제공합니다. 이형접합성 비율(heterozygosity ratio), 전이/전환 비율(Ti/Tv ratio), 삽입/결손 분포, 품질 점수 분포, 대립유전자 빈도 스펙트럼 등을 종합적으로 분석하여 샘플의 유전적 특성과 시퀀싱 데이터의 신뢰성을 평가할 수 있습니다. 또한 다중 샘플 분석 시에는 샘플 간 변이 패턴 비교를 통해 배치 효과(batch effect)나 기술적 아티팩트를 감지하는 데도 활용됩니다. 이 도구는 임상 유전체학 분야에서 특히 중요한데, 변이 호출 결과의 품질을 객관적으로 평가하여 후속 해석 과정의 신뢰성을 보장하는 역할을 합니다. 예를 들어, 예상 범위를 벗어나는 Ti/Tv 비율이나 비정상적인 이형접합성 패턴은 샘플 오염, 시퀀싱 오류, 또는 분석 파이프라인의 문제를 시사할 수 있어 이러한 지표들을 통한 체계적인 품질 관리가 필수적입니다.

#bcftools #variant statistics #gvcf #qc #ti/tv ratio #het/hom ratio #depth analysis
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

GATK HaplotypeCaller

4.3.0.0

GATK의 HaplotypeClaller는 고품질의 변이 검출을 위해 설계되었습니다. 리드에서 발생할 수 있는 시퀀싱 오류를 감지하고 교정하기 위해, 리드의 서브셋을 클러스터링하여 재정렬합니다. 이 과정에서 halpotype을 식별하며, 이는 동일한 DNA 조각에서 유래된 리드의 집합을 의미합니다. 이후, 이 haplotype을 참조 서열과 비교하여 변이를 식별합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 HaplotypeCaller는 입력(input) 데이터로 BAM 파일, Reference sequence FASTA 파일과 Genomic Intervals list 파일을 사용합니다. 출력(output) 데이터로는 비변이 영역에 대한 정보를 포함한 gVCF 파일입니다. GVCF(Genomic VCF) 모드로 실행되어 변이가 없는 위치에 대한 정보도 함께 제공하여 후속 joint genotyping에 활용할 수 있습니다.

#gatk #haplotypecaller #germline variant #gvcf
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

GATK ApplyBQSR

4.3.0.0

GATK의 ApplyBQSR은 GATK에서 중요한 역할을 하는 도구로, 시퀀싱 데이터의 염기 품질 점수를 재조정하여 변이 탐지의 정확성을 향상시키는 기능을 수행합니다. 이 도구는 “BaseRecalibrator”에서 생성된 재조정 테이블에 포함된 여러 공변량을 사용하여 BAM 파일의 각 염기에 대한 품질 점수를 정밀하게 재조정합니다. 기본 공변량에는 리드 그룹, 초기 품질 점수, 시퀀싱 사이클, 뉴클레오타이드 컨텍스트 등이 포함됩니다. 각 공변량을 통해 특정 염기에서 발생할 수 있는 오류 확률을 계산하고, 이를 바탕으로 새로운 품질 점수를 할당합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 ApplyBQSR은 입력(input) 데이터로 정렬된 BAM 파일, “BaseRecalibrator”를 통해 생성된 재조정 테이블 파일과 참조 유전체 서열을 포함하는 FASTA 파일을 사용합니다. 출력(output) 데이터로는 재조정된 품질 점수를 반영한 새로운 BAM 파일입니다.

#gatk #applybqsr #bqsr #quality recalibration
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

GATK BaseRecalibrator

4.3.0.0

GATK의 BaseRecalibrator는 리드의 염기 품질 점수와 오류 패턴을 모델링하기 위한 데이터를 수집합니다. 이 단계에서는 BAM 파일과 신뢰할 수 있는 변이 목록을 입력으로 받아, 리드의 품질 점수를 재조정하는 데 필요한 정보를 수집합니다. BaseRecalibrator는 다양한 공변랑을 기반으로 테이블을 생성합니다. 탐색은 알려진 변이 사이트 VCF 파일에 있는 위치에만 작동합니다. 모든 참조 불일치를 오류로 간주하고, 이를 통해 낮은 베이스 품질을 나타낸다고 가정합니다. 충분한 데이터를 통해 특정 공변량이 관찰된 사이트에서 경험적 오류 확률을 계산할 수 있습니다. 오류 확률은 불일치 횟수를 관찰 횟수로 나누어 계산됩니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 BaseRecalibrator는 입력(input) 데이터로 BAM 파일, 참조 유전체 서열을 포함하는 FASTA 파일과 신뢰할 수 있는 변이 정보를 포함하는 VCF 파일입니다. 출력(output) 데이터로는 여러 공변량 값, 관찰 횟수, 불일치 횟수 그리고 경험적 품질 점수를 포함하는 table 파일입니다.

#gatk #baserecalibrator #bqsr #quality score #known sites
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

GATK CountBases

4.3.0.0

GATK의 CountBases는 BAM 또는 SAM 파일에서 각 염기(A, C, G, T)와 기타 염기 외 문자(N 등)의 출현 빈도를 계수하는 분석 도구입니다. 시퀀싱 데이터의 품질을 평가하거나 유전자 발현 수준, 변이 분석 등 다양한 분석 과정에서 유용하게 사용됩니다. CountBases의 출력은 초기 데이터 탐색 단계에서 데이터의 일관성과 정확성을 평가하는 데 중요한 지표를 제공하며, 이를 기반으로 추가적인 실험 설계나 분석 전략을 결정할 수 있습니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 CountBases는 입력(input) 데이터로 BAM 파일을, 출력(output) 데이터로는 BAM 파일 전체 bases 수가 출력된 count 파일이 생성됩니다.

#gatk #countbases #quality control
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회

GATK MarkDuplicates

4.3.0.0

GATK의 MarkDuplicates는 BAM 또는 SAM 파일에서 중복 리드를 식별하고 태그하는 분석 도구입니다. BAM/SAM 파일에서 리드와 리드 페어의 5' 위치의 시퀀스를 비교하여 중복을 식별합니다. 중복된 리드를 모은 후에는 리드의 베이스 품질 점수의 합을 기준으로 주 리드와 중복 리드를 구별하는 알고리즘을 사용하여 표시합니다. 이러한 중복 서열은 변이 검출 시 위양성(false positive)을 유발할 수 있으므로, 제거하거나 통계 분석에서 제외하는 것이 중요합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 GATK의 MarkDuplicates의 입력(input) 데이터로는 BAM 파일이며, 중복이 식별된 리드가 표시된 새로운 BAM 파일과 중복된 리드의 수와 관련된 다양한 통계를 담은 메트릭스 파일을 출력(output) 데이터로 합니다.

#gatk #markduplicates #bam #pcr duplicates
  • 카테고리Variant > Variant Data Utility
  • 수정일2025-09-17
실행 횟수 0 회