معرفی پایگاه داده STRING: شبکه‌های تعامل پروتئین-پروتئین برای کشف عملکردهای زیستی

پایگاه داده STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) یکی از جامع‌ترین منابع برای مطالعه تعاملات پروتئین-پروتئین (PPI) است. این پایگاه اطلاعاتی به دانشمندان کمک می‌کند تا شبکه‌های تعاملات پروتئینی را بررسی کرده و از آن‌ها برای کشف عملکردهای زیستی در سیستم‌های پیچیده استفاده کنند. در این مقاله، ویژگی‌ها و امکانات نسخه 11 پایگاه داده STRING که در سال 2019 توسط Szklarczyk و همکاران معرفی شده است، بررسی می‌شود.


هدف پایگاه داده STRING

هدف اصلی STRING جمع‌آوری، امتیازدهی و یکپارچه‌سازی تمام اطلاعات موجود در منابع عمومی درباره تعاملات پروتئین-پروتئین است. این تعاملات شامل دو نوع زیر می‌شوند:

  1. تعاملات مستقیم (فیزیکی): تعاملاتی که در آن دو پروتئین به طور فیزیکی با یکدیگر در تماس هستند.
  2. تعاملات غیرمستقیم (عملکردی): تعاملاتی که در آن دو پروتئین در یک مسیر زیستی یا عملکرد خاص نقش دارند، حتی اگر مستقیماً با یکدیگر تعامل نداشته باشند.

پایگاه STRING با ارائه یک شبکه جهانی از تعاملات پروتئینی، امکان کشف عملکردهای زیستی در مقیاس ژنوم را فراهم می‌کند.


گسترش پوشش در نسخه 11 STRING

نسخه 11 پایگاه داده STRING پوشش خود را به طور قابل توجهی گسترش داده است:

  • افزایش تعداد موجودات: تعداد ارگانیسم‌های تحت پوشش از 2,000 به 5,090 افزایش یافته است.
  • افزایش داده‌های پروتئینی: این نسخه شامل 24.6 میلیون پروتئین و بیش از 20 میلیارد تعامل پروتئینی است.

ویژگی‌های جدید در نسخه 11

  1. آپلود داده‌های ژنومی:

    • کاربران می‌توانند داده‌های ژنومی کامل را آپلود کرده و زیرمجموعه‌هایی از آن‌ها را به صورت شبکه‌های تعامل مشاهده کنند.
    • این قابلیت امکان انجام تحلیل غنی‌سازی مجموعه ژنی را فراهم می‌کند.
  2. تحلیل غنی‌سازی عملکردی:

    • STRING از سیستم‌های طبقه‌بندی شناخته‌شده مانند Gene Ontology (GO) و KEGG استفاده می‌کند.
    • همچنین سیستم‌های جدیدی مبتنی بر متن‌کاوی پیشرفته و خوشه‌بندی سلسله‌مراتبی شبکه‌های تعامل ارائه شده است.

کانال‌های شواهد تعاملات پروتئینی

STRING تعاملات پروتئینی را بر اساس هفت کانال مستقل شواهد دسته‌بندی می‌کند:

  1. زمینه ژنومی: شامل همسایگی ژنومی، ادغام ژنی و هم‌رخدادی ژن‌ها.
  2. هم‌بیان ژنی: بر اساس الگوهای بیان ژن در داده‌های مختلف.
  3. متن‌کاوی: تحلیل هم‌ذکری در مقالات علمی.
  4. داده‌های تجربی: شامل داده‌های بیوشیمیایی یا ژنتیکی.
  5. پایگاه‌های داده معتبر: مانند KEGG، Reactome و BioCyc.
  6. کانال‌های دیگر: سایر منابع شواهدی.
  • امتیازدهی و سفارشی‌سازی: هر کانال یک امتیاز جداگانه برای تعاملات ارائه می‌دهد و کاربران می‌توانند کانال‌های خاصی را غیرفعال کنند.

تعاملات عملکردی

  • تعریف: تعامل عملکردی به معنای ارتباط بین دو پروتئین است که به طور مشترک در یک عملکرد زیستی خاص نقش دارند، حتی اگر به طور فیزیکی با هم تعامل نداشته باشند.
  • معیار ارزیابی: تعاملات عملکردی با استفاده از نقشه‌های مسیر زیستی KEGG به عنوان معیار استاندارد ارزیابی می‌شوند.

تحلیل غنی‌سازی در STRING

پایگاه STRING دو روش برای تحلیل غنی‌سازی عملکردی ارائه می‌دهد:

  1. تحلیل فراوانی بیش‌ازحد (Over-Representation Analysis):
    • بر اساس آزمون‌های هیپرجئومتریک.
    • مناسب برای لیست‌های کوچک پروتئینی.
  2. تغییر تجمعی (Aggregate Fold Change - AFC):
    • یک آزمون غیرپارامتری مبتنی بر جایگشت.
    • مناسب برای داده‌های بزرگ ژنومی که شامل مقادیر عددی (مانند تغییرات لگاریتمی بیان ژن) هستند.
    • این روش برای داده‌های بزرگ بینش‌های دقیق‌تری ارائه می‌دهد.

متن‌کاوی و مقالات علمی

  • کانال متن‌کاوی: STRING از الگوهای هم‌ذکری در چکیده‌های PubMed و متن کامل مقالات علمی استفاده می‌کند.
  • حجم داده‌ها:
    • شامل 28.5 میلیون مقاله علمی.
    • شامل 2.1 میلیون مقاله با متن کامل برای تحلیل عمیق‌تر.

یکپارچگی با منابع دیگر

STRING با پروژه‌ها و منابع دیگر یکپارچه شده است:

  • پروژه‌های خواهر:
    • eggNOG: اطلاعات ارتولوژی.
    • STITCH: تعاملات مولکول‌های کوچک.
    • PaxDB: داده‌های فراوانی پروتئین.
    • TISSUES: داده‌های بیان بافتی.
    • Viruses.STRING: داده‌های تعاملات ویروسی.
  • کنسرسیوم IMEx: STRING بخشی از این کنسرسیوم است که داده‌های اولیه تعاملات را ارائه می‌دهد.
  • منبع داده اصلی اروپایی: STRING به عنوان یک منبع داده اصلی توسط ELIXIR شناخته شده است که پایداری و دسترسی طولانی‌مدت آن را تضمین می‌کند.

دسترسی و مجوز

  • دسترسی رایگان: STRING تحت مجوز Creative Commons Attribution (CC BY) 4.0 به صورت رایگان در دسترس است.
  • پایداری: به عنوان یک منبع داده اصلی اروپایی، دسترسی به آن برای کاربران تضمین شده است.

رابط کاربری و ابزارها

  • رابط وب: یک پلتفرم کاربرپسند برای جستجو و تحلیل شبکه‌های تعامل.
  • دسترسی برنامه‌نویسی (API): امکان بازیابی خودکار داده‌ها و ادغام در گردش کارهای تحقیقاتی.
  • یکپارچگی با Cytoscape: برای تجسم و تحلیل شبکه‌ها.
  • ویژگی‌های اضافی:
    • کاربران می‌توانند جستجوهای خود را ذخیره کنند.
    • شواهد تعاملات را بررسی کنند.
    • تحلیل غنی‌سازی عملکردی را مستقیماً در پلتفرم انجام دهند.

جمع‌بندی

پایگاه داده STRING v11 با گسترش پوشش ارگانیسم‌ها، افزودن ابزارهای جدید برای تحلیل غنی‌سازی عملکردی، و یکپارچگی با سایر منابع ژنومی، به یکی از منابع ضروری برای مطالعه تعاملات پروتئین-پروتئین تبدیل شده است. این پایگاه داده با ارائه شبکه‌های جامع و ابزارهای تحلیلی پیشرفته، به پژوهشگران در کشف عملکردهای زیستی و درک سیستم‌های پیچیده کمک می‌کند.

۰
از ۵
۰ مشارکت کننده
سبد خرید