پایگاه داده توالی‌ها - ویکی‌پدیا، دانشنامهٔ آزاد

پایگاه داده توالی

در مبحث داده پردازی زیستی (Bioinformatics) پایگاه داده توالی (sequence database)، نوعی پایگاه داده زیستی محسوب می‌شود که مجموعه بزرگی از توالی‌های اسید نوکلئیک، توالی‌های پروتئین یا پلیمرهای دیگر را در خود جای داده است. به عنوان مثال پایگاه داده Uniprot^{^{[پیوند مرده]}} نمونه ای از پایگاه داده پروتئینی است. تا سال ۲۰۱۳ این پایگاه داده بیش از ۴۰ میلیون توالی پروتئین را دارا بوده که البته تعداد توالی‌های آن به صورت تصاعدی در حال رشد است.^[۱] این پایگاه داده همچنین می‌تواند شامل یک رشته از یک ارگانیسم باشد (یک پایگاه داده برای هر یک از پروتئین‌های موجود در saccharomyces cerevisiae) یا شامل تمام رشته‌های پروتئینی تشکیل دهنده یک مولکول دی‌ان‌ای باشد.

نتایج بررسی

پایگاه داده توالی‌ها می‌تواند توسط روش‌های مختلفی جستجو شود. معمول‌ترین روش، جستجوی یک توالی مشابه یک پروتئین یا ژن است که این پروتئین یا ژنی دارای توالی شناخته شده‌ای برای کاربر باشد. برنامه بلاست یک روش از این نوع است.

جستجو در پایگاه‌های داده توالی‌ها با روش‌های مختلف انجام می‌گیرد. پرکاربردترین روش، جستجو به منظور یافتن توالی‌های مشابه با پروتئین یا ژنی است که توالی آن قبلاً برای کاربر مشخص شده‌است. برنامه BLAST برای این نوع جستجو بسیار متداول است.

داده‌های این نوع پایگاه‌ها منابع متفاوتی دارند و نتیجه آزمایش‌های کوچک یا بزرگ در نقاط مختلف دنیا هستند. این داده‌ها از تحقیقات انفرادی کوچک تا نتایج مطالعاتی چون تحقیقات مراکز بزرگ توالی یابی ژنوم در این پایگاه‌ها تجمع می‌یابد؛ بنابراین این توالی‌ها و روش‌های زیست‌شناسی ضمیمه شده به این توالی‌ها دارای کیفیت متفاوتی است.^[۲]

بسیاری از توالی‌ها براساس یک تحقیق آزمایشگاهی به دست نیامده است. این توالی‌ها نتیجه جستجو شباهت توالی با توالی‌های ثبت شده قبلی است. وقتی یک توالی براساس مشابهت با توالی‌های دیگر ثبت می‌شود به عنوان یک داده جدید در پایگاه داده ذخیره می‌گردد و می‌تواند اساس ثبت توالی‌های دیگری نیز باشد. اکثر پایگاه‌های داده DNA و پروتئین امکان ثبت توالی‌های جدید و افزودن به مجموعه داده‌های پایگاه را برای کاربر فراهم می‌آورند. به عنوان مثال در پایگاه داده NCBI که بزرگترین پایگاه داده DNA محسوب می‌شود می‌توان توالی‌های DNA جدید را از طریق برنامه Bankit در این پایگاه ثبت نمود و بعد از ارزیابی توالی توسط این پایگاه، توالی به نام کاربر در پایگاه ثبت شده و در برنامه‌های جستجو مانند BLAST استفاده می‌شود.

بیشتر پایگاه‌های داده پروتئین و DNA برای شناسایی یک پروتئین یا یک قطعه DNA یا ژن بعد از توالی یابی به کار می‌روند. یعنی پس از توالی یابی DNA و پروتئین توالی حاصل در این پایگاه‌ها جستجو شده و نتایج جستجو و میزان مشابهت با توالی‌های موجود در پایگاه به شناسایی توالی جدید کمک می‌کند برخی از این پایگاه‌ها امکان پیشگویی عملکرد و ساختارثانویه یک توالی به صورت پروتئین را فراهم می‌کنند. با استفاده از برنامه CBLAST که از امکانات پایگاه داده NCBI به‌شمار می‌رود می‌توان ساختار ثانویه یک توالی را به صورت پروتئین پیشگویی نمود.

داده‌های منتج به تناقض

مشکل عمده اکثر پایگاه داده‌های توالی ژنتیکی این است که رکوردها رنج وسیعی از منابع شامل محققان تا مراکز بزرگ تعیین توالی ژنوم را در بر می‌گیرند. در نتیجه هر یک ازتوالی‌ها (و بخصوص تفسیرهای زیستی متصل شده به این توالی‌ها) به خودی خود از نظر کمیت و محتوا بسیار گسترده می‌شوند. علاوه بر این آزمایشگاه‌های مختلف توالی‌های متعددی را ثبت می‌کنند که با توالی‌های موجود در پایگاه داده یکسان یا تقریباً یکسانند.

بسیاری از تفسیرها بر اساس تحقیقات آزمایشگاهی نیستند و براساس جستجوی توالی‌های مشابه با توالی‌های تفسیر شدهٔ قبلی می‌باشند. واضح است که زمانی که یک توالی بر اساس شباهتش به دیگر توالی‌ها تفسیر می‌شود و سپس در پایگاه داده ذخیره می‌شود، بقیهٔ تفسیرها هم ممکن است از روی آن انجام شود؛ که این باعث به وجود آمدن مشکل تفسیرهای متعدد می‌شود، زیرا چندین تفسیر ممکن است موجود باشد که یا بر اساس رشته‌های مشابه بدست آمده یا بر اساس اطلاعات تجربی است که از آزمایشگاه‌ها بدست آمده؛ بنابراین همیشه بایستی به ترجمه‌های زیستی موجود در پایگاه دادهٔ توالی‌ها با شک و تردید نگریست.

منابع

مشارکت‌کنندگان ویکی‌پدیا. «Sequence database». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۵ ژوئن ۲۰۱۲.

↑ 1. Cochrane, G. ; Karsch-Mizrachi, I. ; Nakamura, Y. (23 November 2010). "The International Nucleotide Sequence Database Collaboration". Nucleic Acids Research. 39 (Database): D15–D18. doi:10.1093/nar/gkq1150.
↑ 2. Sikic, K. ; Carugo, O. (2010). "Protein sequence redundancy reduction: comparison of various method". Bioinformation. 5 (6): 234–9. doi:10.6026/97320630005234. PMC 3055704. PMID 21364823.

جستارهای وابسته

قالب فستا

پیوند به بیرون

European Bioinformatics Institute databases
NCBI completely sequenced genomes
Stanford Saccharomyces Genome Database
Protein, the NIH protein database, a collection of sequences from several sources, including translations from annotated coding regions in ژن‌بانک، RefSeq and TPA, as well as records from SwissProt, PIR, PRF, and PDB

پانویس

[1] 1. Cochrane, G. ; Karsch-Mizrachi, I. ; Nakamura, Y. (23 November 2010). "The International Nucleotide Sequence Database Collaboration". Nucleic Acids Research. 39 (Database): D15–D18. doi:10.1093/nar/gkq1150.

[2] 2. Sikic, K. ; Carugo, O. (2010). "Protein sequence redundancy reduction: comparison of various method". Bioinformation. 5 (6): 234–9. doi:10.6026/97320630005234. PMC 3055704. PMID 21364823.

[۱]

[۲]

ن ب و بیوانفورماتیک
پایگاه‌های داده	Sequence databases: ژن‌بانک, European Nucleotide Archive and DNA Data Bank of Japan Secondary databases: یونی‌پروت, database of protein sequences grouping together یونی‌پروت, یونی‌پروت and Protein Information Resource Other databases: بانک داده پروتئین, پروژه پایگاه داده ژنوم آنسامبل and اینترپرو Specialised genomic databases: BOLD, Saccharomyces Genome Database, FlyBase, VectorBase, WormBase, Rat Genome Database, PHI-base, Arabidopsis Information Resource and Zebrafish Information Network
نرم‌افزارها	بلاست Bowtie کلاستال EMBOSS HMMER MUSCLE SAMtools SOAP suite TopHat
سایر	Server: اکسپسی Ontology: هستی‌شناسی ژن Rosalind (education platform)
مؤسسات	Broad Institute China National GeneBank (CNGB) Computational Biology Department (CBD) Microsoft Research - University of Trento Centre for Computational and Systems Biology (COSBI) Database Center for Life Science (DBCLS) DNA Data Bank of Japan (DDBJ) European Bioinformatics Institute (EMBL-EBI) European Molecular Biology Laboratory (EMBL) Flatiron Institute J. Craig Venter Institute (JCVI) Max Planck Institute of Molecular Cell Biology and Genetics (MPI-CBG) مرکز ملی اطلاعات زیست‌فناوری (NCBI) مؤسسه ملی ژنتیک (ژاپن) Netherlands Bioinformatics Centre (NBIC) Philippine Genome Center (PGC) مؤسسه پژوهشی اسکریپس Swiss Institute of Bioinformatics (SIB) Wellcome Sanger Institute Whitehead Institute
سازمان‌ها	African Society for Bioinformatics and Computational Biology (ASBCB) Australia Bioinformatics Resource (EMBL-AR) European Molecular Biology network (EMBnet) International Nucleotide Sequence Database Collaboration (INSDC) International Society for Biocuration (ISB) International Society for Computational Biology (ISCB) Student Council (ISCB-SC) Institute of Genomics and Integrative Biology (CSIR-IGIB) Japanese Society for Bioinformatics (JSBi)
اجلاس‌ها	Basel Computational Biology Conference‎ ([BC²]) European Conference on Computational Biology (ECCB) Intelligent Systems for Molecular Biology (ISMB) International Conference on Bioinformatics (InCoB) ISCB Africa ASBCB Conference on Bioinformatics Pacific Symposium on Biocomputing (PSB) Research in Computational Molecular Biology (RECOMB)
فرمت‌های فایلی	CRAM format قالب فستا قالب فستک NeXML format Nexus format Pileup format SAM format Stockholm format VCF format
موضوعات مرتبط	زیست‌شناسی محاسباتی List of biobanks List of biological databases فیلوژنتیک مولکولی توالی‌یابی پایگاه داده توالی‌ها هم‌ترازسازی توالی
'