Trình tự acid nucleic

Trong di truyền học, một trình tự axit nucleic, trình tự ADN hay trình tự di truyền là chuỗi các ký tự liên tiếp nhau nhằm biểu diễn cấu trúc chính của một dải hay phân tử ADN thực hoặc tổng hợp, mà có khả năng mang thông tin về gen và di truyền.

Electropherogram printout from automated sequencer showing part of a DNA sequence

Để tương ứng với bốn loại nucleotide, người ta dùng 4 ký tự để phân biệt A, X (dùng ở Việt Nam, chữ C được dùng ở các tài liệu tiếng Anh), G, và T- tương ứng với tên của 4 gốc Adenin, Xitosin (Cytosine), Guanin, Timin được liên kết hóa trị với mạch chính phosphor. Trong trường hợp chung, các chuỗi được ghi lên kế nhau không có khoảng trống (gap) chèn vào, ví dụ chuỗi AAAGTXTGAX, đi từ đầu 5' đến 3' tính từ trái sang phải. Nếu có khoảng trống, người ta dùng ký hiệu gạch ngang (-) để làm đại diện, ví dụ ATX-G--X. Bất cứ chuỗi ký tự nào của các nucleotide mà dài hơn 4 đều có thể gọi là trình tự ADN. Mặt khác, tùy vào chức năng sinh học, và ngữ cảnh, mà một trình tự có thể mang mang mã hoặc không mang mã (noncoding DNA). Các trình tự ADN cũng có thể chứa "DNA rác" (junk DNA).

Việc xác định trình tự DNA là tâm điểm của dự án bản đồ gene người ^[1]. Các trình tự/chuỗi này có thể được trích rút ra từ dữ liệu thô trong sinh học thông qua quá trình gọi là Phương pháp sắp xếp chuỗi DNA (DNA sequencing).

Trong một số trường hợp, trong chuỗi có thể xuất hiện các ký tự khác A, T, X, và G. Chúng biểu diễn cho sự đại diện không rõ ràng, có nghĩa là tại vị trí đó, có thể có hơn một loại nucleotide. Đây là quy ước của Hiệp hội Hóa học thuần túy và Hóa học ứng dụng Quốc tế (IUPAC - International Union of Pure and Applied Chemistry):

       A = adenine           
       C = cytosine            
       G = guanine             
       T = thymine           
       R = G A (purine)        
       Y = T C (pyrimidine)    
       K = G T (keto)    
       M = A C (amino)
       S = G C (strong bonds)
       W = A T (weak bonds)
       B = G T C (all but A)
       D = G A T (all but C)
       H = A C T (all but G)
       V = G C A (all but T)
       N = A G C T (any)

Xem thêm

Tham khảo

^ http://seqcore.brcf.med.umich.edu/doc/educ/dnapr/sequencing.html Lưu trữ 2008-01-07 tại Wayback Machine

[1]