پایگاه داده توالیها - ویکیپدیا، دانشنامهٔ آزاد
پایگاه داده توالی
در مبحث داده پردازی زیستی (Bioinformatics) پایگاه داده توالی (sequence database)، نوعی پایگاه داده زیستی محسوب میشود که مجموعه بزرگی از توالیهای اسید نوکلئیک، توالیهای پروتئین یا پلیمرهای دیگر را در خود جای داده است. به عنوان مثال پایگاه داده Uniprot[پیوند مرده] نمونه ای از پایگاه داده پروتئینی است. تا سال ۲۰۱۳ این پایگاه داده بیش از ۴۰ میلیون توالی پروتئین را دارا بوده که البته تعداد توالیهای آن به صورت تصاعدی در حال رشد است.[۱] این پایگاه داده همچنین میتواند شامل یک رشته از یک ارگانیسم باشد (یک پایگاه داده برای هر یک از پروتئینهای موجود در saccharomyces cerevisiae) یا شامل تمام رشتههای پروتئینی تشکیل دهنده یک مولکول دیانای باشد.
نتایج بررسی
[ویرایش]پایگاه داده توالیها میتواند توسط روشهای مختلفی جستجو شود. معمولترین روش، جستجوی یک توالی مشابه یک پروتئین یا ژن است که این پروتئین یا ژنی دارای توالی شناخته شدهای برای کاربر باشد. برنامه بلاست یک روش از این نوع است.
جستجو در پایگاههای داده توالیها با روشهای مختلف انجام میگیرد. پرکاربردترین روش، جستجو به منظور یافتن توالیهای مشابه با پروتئین یا ژنی است که توالی آن قبلاً برای کاربر مشخص شدهاست. برنامه BLAST برای این نوع جستجو بسیار متداول است.
دادههای این نوع پایگاهها منابع متفاوتی دارند و نتیجه آزمایشهای کوچک یا بزرگ در نقاط مختلف دنیا هستند. این دادهها از تحقیقات انفرادی کوچک تا نتایج مطالعاتی چون تحقیقات مراکز بزرگ توالی یابی ژنوم در این پایگاهها تجمع مییابد؛ بنابراین این توالیها و روشهای زیستشناسی ضمیمه شده به این توالیها دارای کیفیت متفاوتی است.[۲]
بسیاری از توالیها براساس یک تحقیق آزمایشگاهی به دست نیامده است. این توالیها نتیجه جستجو شباهت توالی با توالیهای ثبت شده قبلی است. وقتی یک توالی براساس مشابهت با توالیهای دیگر ثبت میشود به عنوان یک داده جدید در پایگاه داده ذخیره میگردد و میتواند اساس ثبت توالیهای دیگری نیز باشد. اکثر پایگاههای داده DNA و پروتئین امکان ثبت توالیهای جدید و افزودن به مجموعه دادههای پایگاه را برای کاربر فراهم میآورند. به عنوان مثال در پایگاه داده NCBI که بزرگترین پایگاه داده DNA محسوب میشود میتوان توالیهای DNA جدید را از طریق برنامه Bankit در این پایگاه ثبت نمود و بعد از ارزیابی توالی توسط این پایگاه، توالی به نام کاربر در پایگاه ثبت شده و در برنامههای جستجو مانند BLAST استفاده میشود.
بیشتر پایگاههای داده پروتئین و DNA برای شناسایی یک پروتئین یا یک قطعه DNA یا ژن بعد از توالی یابی به کار میروند. یعنی پس از توالی یابی DNA و پروتئین توالی حاصل در این پایگاهها جستجو شده و نتایج جستجو و میزان مشابهت با توالیهای موجود در پایگاه به شناسایی توالی جدید کمک میکند برخی از این پایگاهها امکان پیشگویی عملکرد و ساختارثانویه یک توالی به صورت پروتئین را فراهم میکنند. با استفاده از برنامه CBLAST که از امکانات پایگاه داده NCBI بهشمار میرود میتوان ساختار ثانویه یک توالی را به صورت پروتئین پیشگویی نمود.
دادههای منتج به تناقض
[ویرایش]مشکل عمده اکثر پایگاه دادههای توالی ژنتیکی این است که رکوردها رنج وسیعی از منابع شامل محققان تا مراکز بزرگ تعیین توالی ژنوم را در بر میگیرند. در نتیجه هر یک ازتوالیها (و بخصوص تفسیرهای زیستی متصل شده به این توالیها) به خودی خود از نظر کمیت و محتوا بسیار گسترده میشوند. علاوه بر این آزمایشگاههای مختلف توالیهای متعددی را ثبت میکنند که با توالیهای موجود در پایگاه داده یکسان یا تقریباً یکسانند.
بسیاری از تفسیرها بر اساس تحقیقات آزمایشگاهی نیستند و براساس جستجوی توالیهای مشابه با توالیهای تفسیر شدهٔ قبلی میباشند. واضح است که زمانی که یک توالی بر اساس شباهتش به دیگر توالیها تفسیر میشود و سپس در پایگاه داده ذخیره میشود، بقیهٔ تفسیرها هم ممکن است از روی آن انجام شود؛ که این باعث به وجود آمدن مشکل تفسیرهای متعدد میشود، زیرا چندین تفسیر ممکن است موجود باشد که یا بر اساس رشتههای مشابه بدست آمده یا بر اساس اطلاعات تجربی است که از آزمایشگاهها بدست آمده؛ بنابراین همیشه بایستی به ترجمههای زیستی موجود در پایگاه دادهٔ توالیها با شک و تردید نگریست.
منابع
[ویرایش]مشارکتکنندگان ویکیپدیا. «Sequence database». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۵ ژوئن ۲۰۱۲.
- ↑ 1. Cochrane, G. ; Karsch-Mizrachi, I. ; Nakamura, Y. (23 November 2010). "The International Nucleotide Sequence Database Collaboration". Nucleic Acids Research. 39 (Database): D15–D18. doi:10.1093/nar/gkq1150.
- ↑ 2. Sikic, K. ; Carugo, O. (2010). "Protein sequence redundancy reduction: comparison of various method". Bioinformation. 5 (6): 234–9. doi:10.6026/97320630005234. PMC 3055704. PMID 21364823.
جستارهای وابسته
[ویرایش]پیوند به بیرون
[ویرایش]- European Bioinformatics Institute databases
- NCBI completely sequenced genomes
- Stanford Saccharomyces Genome Database
- Protein, the NIH protein database, a collection of sequences from several sources, including translations from annotated coding regions in ژنبانک، RefSeq and TPA, as well as records from SwissProt, PIR, PRF, and PDB