SAMtools_flagstat
SAMtools flagstat는 BAM, SAM, CRAM 파일의 FLAG 정보를 기반으로 정렬 통계를 계산하고 요약 보고서를 제공하는 품질 관리 도구입니다. 이 도구는 입력 파일을 한 번 완전히 통과하면서 FLAG 필드의 비트 플래그를 기준으로 13개 카테고리의 통계를 산출하여 표준 출력으로 결과를 제공합니다. FLAG 정보는 SAM 형식 사양서에 정의된 비트 플래그로, 각 리드의 정렬 상태와 특성을 나타내는 중요한 메타데이터입니다. flagstat는 전체 서열 수, 매핑된 서열 수, 쌍으로 매핑된(properly paired) 서열 수, 중복(duplicates) 리드 수, 주 정렬(primary), 보조 정렬(secondary), 보완 정렬(supplementary) 등의 세부 통계를 제공합니다. 각 카테고리는 QC 통과(QC-passed)와 QC 실패(QC-failed) 리드로 구분되어 "#PASS + #FAIL" 형태로 출력되며, 매핑 비율, 적절한 페어링 비율 등의 백분율 정보도 함께 제공됩니다. 또한 기본 형식 외에도 TSV(탭으로 구분된 값)와 JSON 형식으로 출력할 수 있어 스프레드시트 소프트웨어나 다른 분석 도구에서 쉽게 활용할 수 있습니다. 이러한 통계 정보는 시퀀싱 실험의 품질을 평가하고, 정렬 과정의 성공률을 확인하며, 데이터의 전반적인 특성을 파악하는 데 필수적인 지표로 활용됩니다. 특히 매핑률이 낮거나 적절하게 페어링되지 않은 리드의 비율이 높은 경우, 실험 조건이나 분석 파라미터를 재검토할 필요가 있음을 시사합니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 SAMtools flagstat는 입력(input) 데이터로 BAM 파일을 사용하며, 출력(output) 데이터로는 정렬 통계가 포함된 텍스트 형태의 요약 보고서를 생성합니다.
- 카테고리Utility > Genomic Data Utility
- 수정일2025-09-17
SAMtools_sort
SAMtools는 고처리량 시퀀싱 데이터를 조작하고 분석하기 위해 설계된 다목적 도구 모음으로, 특히 SAM, BAM, CRAM 형식의 정렬 데이터를 처리하는 데 사용됩니다. 이 도구는 변이 호출, 정렬 데이터 확인, 품질 관리 등 다양한 작업에 널리 활용됩니다. SAMtools는 인덱싱, 정렬, 병합, 필터링 등 정렬 파일 처리에 필요한 다양한 기능을 지원하며, 유전체 분석 파이프라인에서 필수적인 도구입니다. SAMtools sort 명령은 SAM, BAM, CRAM 파일을 지정된 기준에 따라 정렬합니다. 기본적으로 좌표(coordinate) 기준으로 정렬하며, -n 옵션을 사용하면 쿼리 이름(query name) 기준으로 정렬합니다. 정렬 순서는 SAM 파일 헤더의 @HD 태그 내 SO 필드에 표시됩니다. 좌표 정렬은 @HD SO:coordinate, 쿼리 이름 정렬은 @HD SO:queryname으로 헤더에 기록됩니다. 좌표 정렬 (Coordinate Sorting)의 경우, 읽기는 다음과 같은 순서로 정렬됩니다: 1. 참조 시퀀스 이름(RNAME): @SQ 태그에 정의된 참조 시퀀스 사전의 순서를 따릅니다. 2. 가장 왼쪽 매핑 위치(POS): 동일한 RNAME 내에서 읽기의 시작 위치를 기준으로 정렬됩니다. 3. REVERSE 플래그: POS가 동일한 경우, 순방향 가닥(forward strand, REVERSE 플래그 0)이 역방향 가닥(reverse strand, REVERSE 플래그 1)보다 먼저 옵니다. 이후 추가적인 동점이 있는 경우, 정렬 순서는 입력 데이터의 순서를 유지할 수 있습니다. 쿼리 이름 정렬 (Query Name Sorting)의 경우, -n 옵션을 사용하며 읽기는 다음과 같은 순서로 정렬됩니다: 1. 쿼리 이름(QNAME): 자연스러운 순서(natural order)로 정렬되며, 문자열 내 숫자 부분은 수치적으로 비교됩니다 (예: "read9"는 "read10"보다 먼저). 2. READ1/READ2 플래그: 동일한 QNAME을 가진 읽기는 첫 번째 읽기(READ1, 플래그 0x40)가 두 번째 읽기(READ2, 플래그 0x80)보다 먼저 옵니다. 3. 정렬 유형: READ1/READ2가 동일한 경우, 주 정렬(primary alignment)이 먼저 오고, 그 다음 보조 정렬(supplementary alignment), 2차 정렬(secondary alignment) 순으로 정렬됩니다. 남은 동점은 입력 데이터의 원래 순서를 따릅니다. 따라서 SAMtools는 유전체 데이터를 효율적으로 처리하고 분석하는 데 중요한 역할을 하며, 특히 정렬 작업에서 sort 도구가 유용하게 사용됩니다. Bio-Express의 Whole Genome Sequencing Pipeline 분석과정에서 SAMtools sort는 SAM파일을 입력 데이터로 사용하여 BAM 파일을 출력합니다.
- 카테고리Utility > Genomic Data Utility
- 수정일2025-09-17