آشنایی با GEO2R - آکادمی جی جی پلات

GEO2R یک ابزار تجزیه و تحلیل داده‌های ژنومیکی است که برای مقایسه بیان ژن‌ها در دو یا چند گروه نمونه استفاده می‌شود. این ابزار برای شناسایی ژن‌هایی که در دو یا چند گروه نمونه با یکدیگر متفاوت هستند، بکار می‌رود. Geo2R به تحلیل داده‌های RNA-Seq و میکروآرایه‌های ژنومیکی مورد استفاده قرار می‌گیرد و می‌تواند به بررسی تفاوت‌های بیان ژنی بین گروه‌های نمونه کمک کند.

Geo2R برای مقایسه بیان ژن‌ها در دو یا چند گروه نمونه استفاده می‌شود و اهمیت آن در شناسایی ژن‌هایی است که در گروه‌های مختلف نمونه با یکدیگر متفاوت هستند. این ابزار به محققان و دانشمندان کمک می‌کند تا ژن‌های مهمی که در بیان در گروه‌های مختلف نمونه تفاوت دارند را شناسایی کرده و به عنوان نشانگرهای بیولوژیکی برای تفاوت‌های فیزیولوژیکی یا بیماری‌های مختلف استفاده کنند. این ابزار به عنوان یک ابزار تجزیه و تحلیل داده‌های ژنومیکی، درک بهتری از فرایندهای بیولوژیکی و بیولوژی مولکولی فراهم می‌کند و محققان را در تحقیقات بر روی بیان ژنی و ارتباط آن با ویژگی‌های فیزیولوژیکی و بیولوژیکی یاری می‌رساند.

مقدمه
GEO2R یک ابزار تعاملی وب است که به کاربران امکان مقایسه دو یا چند گروه نمونه در یک سری GEO را به منظور شناسایی ژن‌هایی که در شرایط آزمایشی مختلف به طور تفاوتی بیان می‌شوند، می‌دهد. نتایج به صورت جدولی از ژن‌ها به ترتیب مقدار P-Value و یک مجموعه از نمودارهای گرافیکی برای کمک به بصری‌سازی ژن‌های به طور تفاوتی بیان شده و ارزیابی کیفیت مجموعه داده‌ها ارائه می‌شود. GEO2R از مجموعه‌ای از بسته‌های R از پروژه Bioconductor استفاده می‌کند. Bioconductor یک پروژه نرم‌افزاری منبع باز بر اساس زبان برنامه‌نویسی R است که ابزارهایی برای تجزیه و تحلیل داده‌های ژنومی با حجم بالا فراهم می‌کند.

داده های RNA-Seq
GEO2R از DESeq2 برای انجام تجزیه و تحلیل بیان ژن‌های تفاوتی با استفاده از ماتریس‌های تعداد خام محاسبه شده توسط NCBI به عنوان ورودی استفاده می‌کند. DESeq2 یک بسته R برای شناسایی ژن‌های با بیان متفاوت در داده‌های RNA-seq است. این از مدل‌های خطی عمومی منفی بینومیال استفاده می‌کند و ویژگی‌هایی دارد که عملکرد پایدار را در یک محدوده بزرگ از انواع داده‌ها ارائه می‌دهد، که این ابزار را مناسب برای مطالعات کوچک با تعداد تکرارهای کم و همچنین برای مطالعات مشاهداتی بزرگ می‌کند.

داده‌های میکروآرایه
GEO2R از GEOquery و limma برای انجام تجزیه و تحلیل تفاوتی بیان با استفاده از جداول داده‌های پردازش شده ارائه شده توسط ارسال‌کننده اصلی به عنوان ورودی استفاده می‌کند. GEOquery داده‌های GEO را به ساختارهای داده‌ای R تجزیه می‌کند که می‌تواند توسط بسته‌های دیگر R استفاده شود. limma (مدل‌های خطی برای تجزیه و تحلیل میکروآرایه) یک آزمون آماری برای شناسایی ژن‌های با بیان متفاوت در داده‌های میکروآرایه است. این با گستره گسترده‌ای از طراحی‌های تجربی و انواع داده‌ها سر و کار دارد و اصلاح‌های چندگانه بر P-مقادیر را اعمال می‌کند تا به اصلاح برای وقوع مثبت‌های غلط کمک کند.

مهم: GEO2R بر اطلاعات منتخب و ترتیب‌دهی شده DataSets وابسته ندارد و به‌صورت مستقیم فایل‌های داده‌های ماتریس سری را مورد بررسی قرار می‌دهد. این مهم است که این ابزار قادر است تا به تقریبا هر سری GEO دسترسی داشته و آن‌ها را تجزیه و تحلیل کند، بدون توجه به نوع و کیفیت داده، بنابراین کاربر باید از محدودیت‌ها و نکات مهم GEO2R آگاه باشد.

چگونه استفاده کنید
شماره دسترسی به سری را وارد کنید
اگر از یک پیوند از یک سری رکورد دنبال کرده‌اید، جعبه دسترسی GEO از پیش پر شده خواهد بود. در غیر این صورت، یک شماره دسترسی به سری را در جعبه وارد کنید، به عنوان مثال GSE25724. اگر سری مرتبط با چندین پلتفرم میکروآرایه باشد، از شما خواسته خواهد شد که پلتفرم مورد نظر خود را انتخاب کنید.

در پنل نمونه‌ها، بر روی “تعریف گروه‌ها” کلیک کنید و نام‌های گروه‌های نمونه‌هایی که قصد مقایسه آن‌ها را دارید وارد کنید، به عنوان مثال، آزمایش و کنترل. می‌توانید تا 10 گروه تعریف کنید. حداقل باید دو گروه تعریف شود تا بتوان تحلیل را انجام داد. با استفاده از ویژگی [X] کنار نام گروه‌ها، می‌توانید گروه‌ها را حذف کنید. ترتیبی که شما گروه‌ها را تعریف می‌کنید، بر نتایج آینده تأثیر می‌گذارد. برای مقایسه دو گروه، به طور معمول مناسب است که ابتدا گروه آزمایش را تعریف کنید، سپس گروه کنترل را – به این ترتیب، جهت تغییر لاگ فولد منطبق با روشن فرضیه خواهد بود و برای ژن‌های بالا تنظیم شده در نمونه‌های آزمایش نسبت به کنترل‌ها، مثبت و برای ژن‌های کاهش یافته، منفی خواهد بود. (توجه: این تغییر در نوامبر 2020 اجرا شد. در صورت نیاز به تکرار تحلیل قبلی، می‌توانید ترتیب ایجاد گروه‌ها را برعکس کنید).

نمونه‌ها را به هر گروه اختصاص دهید.

برای اختصاص نمونه‌ها به یک گروه، سطرهای مرتبط نمونه را مشخص کنید. می‌توانید چندین سطر را با کشیدن نشانگر بر روی نمونه‌های مجاور یا با استفاده از کلیدهای Ctrl یا Shift مشخص کنید. هنگامی که نمونه‌های مرتبط مشخص شدند، بر روی نام گروه کلیک کرده و آن نمونه‌ها را به گروه اختصاص دهید. این کار را برای هر گروه تکرار کنید. نیازی به انتخاب همه نمونه‌ها در یک سری برای اجرای تحلیل وجود ندارد.

برای کمک به تعیین اینکه نمونه‌ها به کدام گروه تعلق دارند، از ستون‌های فراداده‌های نمونه استفاده کنید. جدول با شماره دسترسی، عنوان، نام منبع و فیلدهای ویژگی‌های فردی از رکوردهای نمونه پر شده است. شما می‌توانید با استفاده از جعبه ستون‌ها در گوشه بالا و راست جدول، فیلدهای نمایش داده شده را تغییر دهید و با کلیک بر روی سربرگ‌های جدول، ستون‌ها را مرتب کنید.

انجام تحلیل
پس از اختصاص نمونه‌ها به گروه‌ها، بر روی دکمه تحلیل کلیک کنید تا با پارامترهای پیش‌فرض، تحلیل انجام شود.

همچنین، می‌توانید پارامترهای تحلیل پیش‌فرض را در تب گزینه‌ها ویرایش کنید. به عنوان مثال، می‌توانید در تب گزینه‌ها یک روش تنظیم مقدار P-value جایگزین را انتخاب کرده و برای اجرای تحلیل با پارامترهای بازبینی شده، بر روی دکمه بازنمایی کلیک کنید. جزئیات مربوط به هر گزینه ویرایش در بخش ویرایش گزینه‌ها و ویژگی‌ها در زیر آمده است.

می‌توانید بدون تعریف گروه‌ها بر روی دکمه تحلیل کلیک کنید و نمودارهایی را دریافت کنید که می‌تواند در ارزیابی وضعیت نرمال‌سازی و گروه‌بندی نمونه‌ها مفید باشد، به عبارت دیگر، این نمودارها به شما کمک می‌کنند تا مناسب بودن مطالعه برای تحلیل‌های بیشتر را ارزیابی کرده و تصمیم بگیرید که آیا نیاز به اعمال تنظیماتی بر روی آزمون دارید یا خیر.

“ژن‌های مختلفاً بیان‌شده در بالاترین سطوح تفاوت”

نتایج به صورت یک جدول از 250 ژن برتر بر اساس مقدار P-value تصحیح شده (P-valueهای اصلاح شده برای آزمون‌های چندگانه) در مرورگر ارائه شده است. برای RNA-seq، جدول نتیجه آزمون والد هنگام مقایسه 2 گروه از نمونه‌هاست، و آزمون LRT (آزمون نسبت احتمالات) هنگام مقایسه 3 یا بیشتر گروه از نمونه‌ها است. برای مشاهده نمودار پروفایل بیان ژن برای هر سطر، بر روی آن کلیک کنید. هر نوار قرمز در نمودار نشان‌دهنده اندازه بیان ژن از شمارش‌های بیان TPM نرمال شده (برای RNA-seq) یا ستون مقدار رکورد نمونه ارائه شده توسط ارائه‌دهنده اصلی (برای میکروآرایه‌ها) است. شماره‌های دسترسی به نمونه و نام‌های گروه در پایین نمودار فهرست شده‌اند.

از قابلیت انتخاب ستون‌ها استفاده کنید تا ستون‌ها و اطلاعات مورد نظر را در جدول شامل کنید. اطلاعات در مورد معنای ستون‌های داده‌ای در بخش آمار خلاصه ارائه شده است.

اگر می‌خواهید پارامترهای تحلیل را ویرایش کنید، می‌توانید این کار را در تب گزینه‌ها انجام داده و سپس بر روی دکمه بازنمایی کلیک کنید تا ویرایشات را اعمال کنید.

برای مشاهده بیشتر از 250 ژن برتر، از لینک دانلود جدول کامل استفاده کنید تا مجموعه کاملی از نتایج را دانلود کنید. فایل دانلود شده دارای جداکننده تبی و مناسب برای باز کردن در نرم‌افزارهای صفحه‌کلید مانند اکسل است.

تصویرسازی
چندین نمودار گرافیکی تولید شده‌اند تا به کاربران کمک کنند تا ژن‌های مختلفاً بیان‌شده را بیشتر بررسی کرده و کیفیت مجموعه داده را ارزیابی کنند. جزئیات بیشتر در مورد تولید و استفاده از این نمودارها در ویگنت DESeq2 برای تحلیل داده‌های RNA-seq و راهنمای کاربران limma قابل دسترسی است، همچنین در تب اسکریپت R GEO2R.

آکادمی جی جی پلات

دی 5, 1402

زبان R

بعدیانواع داده در R

نوشته های مرتبط:

روش های آماری t.Test و ANOVA

روش های آماری, آموزش ها, زبان R

بعدیانواع داده در R

نوشته های مرتبط:

روش های آماری t.Test و ANOVA

بدون دیدگاه

دیدگاهتان را بنویسید لغو پاسخ