پایگاه داده STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) یکی از جامعترین منابع برای مطالعه تعاملات پروتئین-پروتئین (PPI) است. این پایگاه اطلاعاتی به دانشمندان کمک میکند تا شبکههای تعاملات پروتئینی را بررسی کرده و از آنها برای کشف عملکردهای زیستی در سیستمهای پیچیده استفاده کنند. در این مقاله، ویژگیها و امکانات نسخه 11 پایگاه داده STRING که در سال 2019 توسط Szklarczyk و همکاران معرفی شده است، بررسی میشود.
هدف پایگاه داده STRING
هدف اصلی STRING جمعآوری، امتیازدهی و یکپارچهسازی تمام اطلاعات موجود در منابع عمومی درباره تعاملات پروتئین-پروتئین است. این تعاملات شامل دو نوع زیر میشوند:
- تعاملات مستقیم (فیزیکی): تعاملاتی که در آن دو پروتئین به طور فیزیکی با یکدیگر در تماس هستند.
- تعاملات غیرمستقیم (عملکردی): تعاملاتی که در آن دو پروتئین در یک مسیر زیستی یا عملکرد خاص نقش دارند، حتی اگر مستقیماً با یکدیگر تعامل نداشته باشند.
پایگاه STRING با ارائه یک شبکه جهانی از تعاملات پروتئینی، امکان کشف عملکردهای زیستی در مقیاس ژنوم را فراهم میکند.
گسترش پوشش در نسخه 11 STRING
نسخه 11 پایگاه داده STRING پوشش خود را به طور قابل توجهی گسترش داده است:
- افزایش تعداد موجودات: تعداد ارگانیسمهای تحت پوشش از 2,000 به 5,090 افزایش یافته است.
- افزایش دادههای پروتئینی: این نسخه شامل 24.6 میلیون پروتئین و بیش از 20 میلیارد تعامل پروتئینی است.
ویژگیهای جدید در نسخه 11
آپلود دادههای ژنومی:
- کاربران میتوانند دادههای ژنومی کامل را آپلود کرده و زیرمجموعههایی از آنها را به صورت شبکههای تعامل مشاهده کنند.
- این قابلیت امکان انجام تحلیل غنیسازی مجموعه ژنی را فراهم میکند.
تحلیل غنیسازی عملکردی:
- STRING از سیستمهای طبقهبندی شناختهشده مانند Gene Ontology (GO) و KEGG استفاده میکند.
- همچنین سیستمهای جدیدی مبتنی بر متنکاوی پیشرفته و خوشهبندی سلسلهمراتبی شبکههای تعامل ارائه شده است.
کانالهای شواهد تعاملات پروتئینی
STRING تعاملات پروتئینی را بر اساس هفت کانال مستقل شواهد دستهبندی میکند:
- زمینه ژنومی: شامل همسایگی ژنومی، ادغام ژنی و همرخدادی ژنها.
- همبیان ژنی: بر اساس الگوهای بیان ژن در دادههای مختلف.
- متنکاوی: تحلیل همذکری در مقالات علمی.
- دادههای تجربی: شامل دادههای بیوشیمیایی یا ژنتیکی.
- پایگاههای داده معتبر: مانند KEGG، Reactome و BioCyc.
- کانالهای دیگر: سایر منابع شواهدی.
- امتیازدهی و سفارشیسازی: هر کانال یک امتیاز جداگانه برای تعاملات ارائه میدهد و کاربران میتوانند کانالهای خاصی را غیرفعال کنند.
تعاملات عملکردی
- تعریف: تعامل عملکردی به معنای ارتباط بین دو پروتئین است که به طور مشترک در یک عملکرد زیستی خاص نقش دارند، حتی اگر به طور فیزیکی با هم تعامل نداشته باشند.
- معیار ارزیابی: تعاملات عملکردی با استفاده از نقشههای مسیر زیستی KEGG به عنوان معیار استاندارد ارزیابی میشوند.
تحلیل غنیسازی در STRING
پایگاه STRING دو روش برای تحلیل غنیسازی عملکردی ارائه میدهد:
- تحلیل فراوانی بیشازحد (Over-Representation Analysis):
- بر اساس آزمونهای هیپرجئومتریک.
- مناسب برای لیستهای کوچک پروتئینی.
- تغییر تجمعی (Aggregate Fold Change - AFC):
- یک آزمون غیرپارامتری مبتنی بر جایگشت.
- مناسب برای دادههای بزرگ ژنومی که شامل مقادیر عددی (مانند تغییرات لگاریتمی بیان ژن) هستند.
- این روش برای دادههای بزرگ بینشهای دقیقتری ارائه میدهد.
متنکاوی و مقالات علمی
- کانال متنکاوی: STRING از الگوهای همذکری در چکیدههای PubMed و متن کامل مقالات علمی استفاده میکند.
- حجم دادهها:
- شامل 28.5 میلیون مقاله علمی.
- شامل 2.1 میلیون مقاله با متن کامل برای تحلیل عمیقتر.
یکپارچگی با منابع دیگر
STRING با پروژهها و منابع دیگر یکپارچه شده است:
- پروژههای خواهر:
- eggNOG: اطلاعات ارتولوژی.
- STITCH: تعاملات مولکولهای کوچک.
- PaxDB: دادههای فراوانی پروتئین.
- TISSUES: دادههای بیان بافتی.
- Viruses.STRING: دادههای تعاملات ویروسی.
- کنسرسیوم IMEx: STRING بخشی از این کنسرسیوم است که دادههای اولیه تعاملات را ارائه میدهد.
- منبع داده اصلی اروپایی: STRING به عنوان یک منبع داده اصلی توسط ELIXIR شناخته شده است که پایداری و دسترسی طولانیمدت آن را تضمین میکند.
دسترسی و مجوز
- دسترسی رایگان: STRING تحت مجوز Creative Commons Attribution (CC BY) 4.0 به صورت رایگان در دسترس است.
- پایداری: به عنوان یک منبع داده اصلی اروپایی، دسترسی به آن برای کاربران تضمین شده است.
رابط کاربری و ابزارها
- رابط وب: یک پلتفرم کاربرپسند برای جستجو و تحلیل شبکههای تعامل.
- دسترسی برنامهنویسی (API): امکان بازیابی خودکار دادهها و ادغام در گردش کارهای تحقیقاتی.
- یکپارچگی با Cytoscape: برای تجسم و تحلیل شبکهها.
- ویژگیهای اضافی:
- کاربران میتوانند جستجوهای خود را ذخیره کنند.
- شواهد تعاملات را بررسی کنند.
- تحلیل غنیسازی عملکردی را مستقیماً در پلتفرم انجام دهند.
جمعبندی
پایگاه داده STRING v11 با گسترش پوشش ارگانیسمها، افزودن ابزارهای جدید برای تحلیل غنیسازی عملکردی، و یکپارچگی با سایر منابع ژنومی، به یکی از منابع ضروری برای مطالعه تعاملات پروتئین-پروتئین تبدیل شده است. این پایگاه داده با ارائه شبکههای جامع و ابزارهای تحلیلی پیشرفته، به پژوهشگران در کشف عملکردهای زیستی و درک سیستمهای پیچیده کمک میکند.