رگرسیون ریج بیزی: رگرسیون ریج مشابه حداقل مربعات معمولی بوده با این تفاوت، درصورتی‌که تعداد اثرات از تعداد مشاهدات بیشتر باشد محدودیتی نداشته و همچنین زمانی که بین نشانگرها همبستگی باشد نیز دارای پایداری عددی (numerical stability) است. مدل رگرسیون ریج به این صورت است: . برآورد اثرات نشانگرها ( ) را می‌توان با بهره گرفتن از معادله روبه‌رو تخمین زد . که در اینجا یک ناظم برای پارامتر کنترل کننده به‌منظور توازن بین نکویی برازش (اندازه ­گیری شده به‌وسیله مجموع مربعات خطا) و پیچیدگی مدل (که به‌وسیله مجموع مربعات اثرات نشانگرها ( ) قابل اندازه‌گیری است) می­باشد. لامبدا به قطر ماتریس ضرایب اضافه می­ شود. درصورتی‌که لامبدا به سمت بی‌نهایت میل کند، برابر صفر خواهد شد. از طرف دیگر، اگر لامبدا برابر صفر باشد برآوردهای این روش مشابه OLS خواهد بود. این مدل در فرم ماتریسی: خواهد بود که در اینجا D برابر ماتریس قطری بوده که برای برابر یک و برای بقیه عناصر صفر خواهد بود. وقتی کل عناصر این ماتریس صفر باشد مدل مشابه OLS خواهد بود. اضافه کردن ضرایب به قطر ماتریس، ضرایب برآوردها را به سمت صفر سوق می­دهد. این کار هرچند که اریبی را تحریک کرده ولی واریانس برآوردها را کاهش می­دهد. برآوردهای بیزی رگرسیون ریج مساوی است با توزیع پسین شرطی ضرایب رگرسیونی مدل بیزی که باشد. و به‌ترتیب واریانس باقیمانده و اثرات نشانگری می­باشند. اختصاص دادن پیش فرض­ها (Prior) به هرکدام از این پارامترهای واریانس، منجر به استنباط و استنتاج پارامترهای نامعلوم از داده ­های آموزشی می­ شود که به‌منظور برآورد کردن اثرات نشانگرها مورد استفاده قرار می­گیرد.

( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )

بیز LASSO: یکی دیگر از توزیع­های آماری برای اثرات SNP ها که به‌عنوان توزیع پیشین روش‌های بیزی به‌کار می­رود توزیع دونمایی می­باشد. این توزیع مانند توزیع t دارای دم درازی است اما دارای تعداد بیشتری اثرات کوچک غیرصفر است. روش عامل انتخاب و افت حداقل مطلق (LASSO) از توزیع دونمایی برای توزیع اثرات QTL (مشروط به پارامتر تنظیم کننده لامبدا) استفاده می­ کند. برآوردهای LASSO می­توانند از مدل توزیع پسین بیزی تحت توزیع پیشین دونمایی مستقل برای اثرات QTL ها استنتاج و استنباط شوند. توزیع دونمایی همچنین می ­تواند به‌عنوان توزیع مختلطی از توزیع نرمال با واریانس نمونه گیری شده از یک توزیع نمایی بیان شود.

بیز لاسو، شکل خاصی از حداقل مربعات جریمه شده است که مجموع مربعات باقیمانده را حداقل می­ کند. برآورد اثرات SNP در بیز LASSO تراکم پیشین توزیع دونمایی به این صورت بیان می­ شود.
که بوده و میزان افت را تعیین می‌کند. مقادیر بالای لامبدا تعداد بیشتری از ضرایب را صفر در نظر می­گیرد و مقادیر پایین­تر لامبدا منجر به نزدیکی برآوردها به OLS خواهد شد. در استنباط بیزی ضرایب رگرسیون: خواهند بود.
بردار ضرایب رگرسیون در بیز LASSO: مطابق پارک و کاسِلا (۲۰۰۸) توزیع پیشین شرطی اثرات نشانگرها ( ) با واریانس پیشین اختصاصی مارکر به این صورت تعریف می­ شود: این توزیع پیشین، افت برآورد اختصاصی اثرات نشانگرها را تحریک می‌کند که مقدار بسط آن به بستگی دارد. پارامتر واریانس ( برابر واریانس نشانگرها است: رِسِنده و همکاران، ۲۰۱۲) به‌عنوان توزیع­های پیشین مستقل و یگانه نمایی و به‌صورت: . در نظر گرفته می­ شود (پارک و کاسِلا، ۲۰۰۸). که با این فرضیات توزیع پیشین حاشیه­ای ضرایب رگرسیون به این صورت خواهد بود. که توزیع دونمایی است. این توزیع دارای تراکم بیشتری در صفر بوده که نشان‌دهنده اینست که دارای افت شدیدی برای مارکرهای با اثر نسبتاً کوچک و افت پایین­تر برای مارکرهای با اثر قابل ملاحظه می­باشد.
در بیز LASSO توزیع پیشین واریانس اثرات نشانگرها به این صورت است:

بنابراین، و می‌باشد.
بیز A: در این روش توزیع اثرات SNP ها به‌صورت توزیع t فرض می­ شود. به این مفهوم که در این توزیع مفروض است همانند BLUP تمام SNP ها دارای اثرات اندکی باشند هرچند که شکل دنبه­ای توزیع فرض شده اجازه می­دهد که برخی از SNP ها در حالت عدم لینکاژی با QTL های متوسط تا بزرگ اثر باشند. در این حالت اثرات SNP از توزیع نرمال نمونه گیری شده ولی واریانس این اثرات از توزیع کای اسکوار مقیاس­بندی شده معکوس (مشابه معکوس گاما می­باشد) نمونه‌گیری خواهد شد:

که در اینجا r برابر درجه آزادی و s مساوی پارامتر مقیاس است. این فرمول نشان می­دهد که اثرات SNP ها از توزیع t نمونه‌گیری شده ­اند. مقادیر پارامترهای توزیع کای اسکوار معکوس مقیاس‌بندی شده (r و s) می­توانند برای متغیر تصادفی X به این صورت تعریف شوند.

از ترکیب دو معادله بالا حاصل می­ شود: .
بنابراین با بهره گرفتن از میانگین و واریانس مورد انتظار می­توان دو هایپر پارامتر r و s را برای توزیع کای اسکوار معکوس مقیاس‌بندی شده تعریف کرد.
درصورتی‌که درجه آزادی افزایش یابد توزیع t به توزیع نرمال نزدیک می­ شود. ولی در حالت پایین بودن درجه آزادی، بیشتر SNP ها با اثر اندک و تعداد کمی از آن‌ها با اثر عمده در نظر گرفته می­ شود. این حالت برای بیشتر صفات تقریب واقعی­تری از اثرات SNP نسبت به (نمونه‌گیری اثرات QTL از) توزیع نرمال می‌باشد.
در بیز A توزیع پیشین واریانس به‌صورت توزیع کای اسکوار معکوس مقیاس‌بندی شده در نظر گرفته شده که در اینجا s پارامتر مقیاس و v درجه آزادی می­باشد. در این حالت وقتی اطلاعات توزیع پیشین و اطلاعات داده ­ها با هم ترکیب می­ شود توزیع پسین نیز به‌صورت توزیع کای اسکوار معکوس شده مقیاس‌بندی شده خواهد بود

که در اینجا n برابر تعداد اثرات نشانگرها می­باشد. همچنین واریانس خطای توزیع پیشین به‌صورت است که توزیع شرطی آن به این صورت خواهد بود:
بیز B: در این مدل فرض بر این است که فقط قسمتی (بخشی) از جایگاه‌های ژنی، کل واریانس ژنتیکی را تشریح می­ کنند و بسیاری از جایگاه‌های ژنی نقشی در واریانس ژنتیکی ندارند. مدل آماری بیز B را می­توان به‌صورت زیر نوشت:

که y فنوتیپ حیوان i بوده، : میانگین، k تعداد جایگاه‌های مارکری، x ژنوتیپ مارکر در جایگاه j (i اُمین آلل) که به‌صورت ۰ و ۱ و ۲ (تعداد کپی‌های آلل SNP که حیوان i حمل می­ کند) کد گذاری می­شوند. نیز اثر جایگزینی آللی در جایگاه j و متغیر موردنظر و اختصاصی این مدل است که یک متغیر ۰ و ۱ بوده و نشان‌دهنده عدم حضور (با احتمالπ) یا حضور (با احتمال۱-π) جایگاه j در مدل می­باشد.

فرض اصلی این روش، این است که بسیاری از SNP ها در مناطق ژنومی قرار گرفته‌اند که فاقد QTL بوده و تاثیری بر صفت ندارند. در حالی‌که فقط بخش اندکی از SNP ها در حالت LD با QTL بوده و درنتیجه دارای اثر هستند. به‌طورکلی π نشان‌دهنده نسبت قابل‌انتظاری از SNP هاست که در حالت عدم لینکاژی با QTL ها نسبت به تعداد کل SNP ها است. اثرات SNP از توزیع t نمونه گیری شده ولی واریانس اثرات با احتمال π از توده صفر و با احتمال π ۱- ازتوزیع کای اسکوار معکوس مقیاس‌بندی شده (مِوویسِن و همکاران، ۲۰۰۱) نمونه گیری خواهند شد:

در روش بیز B مشکل مشخص بودن مقدار π وجود دارد. درصورتی‌که مقداری که انتخاب می­ شود با توزیع حقیقی اثرات SNP ناسازگار و متناقض باشد به‌طور معنی­داری بر میزان صحت اثرات برآورد شده تاثیر منفی خواهد داشت. برای حل مشکل از قبل معین بودن π، از روش نمونه گیری ارائه شده توسط فرناندو (۲۰۰۹)، از توزیع پیشین یکنـــواخت (=uniform(0,1)π) استفاده و در کنار تمام پارامترهای دیگر در تکرارهای MCMC نمونه گیری خواهد شد. زمانی که یک همگرایی حاصل شد پارامتر برابر میانگین توزیع پسین خودش در نظر گرفته خواهد شد و الگوریتم‌ها مجدداً برای برآورد اثرات SNP به‌کار گرفته خواهند شد.
بیز C: این روش شکلی از بیز B است. فقط به‌جای اینکه از توزیع پیشین t برای اثرات نشانگرها استفاده کند از توزیع نرمال استفاده می‌شود و ازاین‌رو، توزیع پسین اثرت نشانگری هم نرمال خواهد بود.
۳-۷- برآورد ارزش‌های اصلاحی ژنومی
در هریک از سناریوهای مورد مطالعه، ارزش‌های اصلاحی ژنومی برای هریک از افراد جمعیت کاندیدا، با بهره گرفتن از مجموع اثرات نشانگرها (بر حسب ژنوتیپ فرد در هر جایگاه) برآورد گردید. بنابراین، بردار ارزش‌های اصلاحی ژنومی برآورد شده برابر است با:
GEBV=Xg
که در این رابطه، GEBV بردار ارزش‌های اصلاحی ژنومی (با ابعاد n*1) می‌باشد. X ماتریس طرح با ابعاد n*m بوده که n تعداد فرد و m تعداد نشانگر می­باشد. این ماتریس اثرات نشانگری را به ژنوتیپ نشانگرها مرتبط می­سازد همچنین g بردار اثرات برآورد شده برای چند شکلی­های تک نوکلئوتیدی با ابعاد m*1 (m: تعداد نشانگر) می­باشد که با بهره گرفتن از روش‌های مختلف برآورد شده است. برای اجرای روش­های بیزی، از بسته نرم افزاری BGLR (دِ لوس کامپوس و پِرِز، ۲۰۱۳) و الگوریتم نمونه‌گیری گیبس برای نمونه‌گیری توزیع پسین شرطی اثرات نشانگری استفاده شد. استنباط اثرات نشانگری با بهره گرفتن از زنجیره­های ۱۲۰۰۰ نمونه ­ای (۲۰۰۰ نمونه اولیه گرم‌کنندگی و ۱۰۰۰۰ نمونه بعدی برای استنباط­های توزیع پسین) صورت گرفت.
۳-۸- مقایسه صحت روش‌ها
به‌منظور بررسی صحت ارزش‌های اصلاحی ژنومی برآورد شده با بهره گرفتن از روش‌های مورد مطالعه، از همبستگی پیرسون ارزش‌های اصلاحی برآورد شده و ارزش اصلاحی حقیقی استفاده گردید. هر سناریوی شبیه‌سازی شده ۱۰ بار تکرار شد و میانگین ۱۰ ضریب همبستگی به‌دست‌آمده به‌عنوان معیار صحت مدل درنظر گرفته شد.
۳-۹- استنباط ژنوتیپی
در بخش دیگر این پژوهش، تاثیر استنباط SNP ها بر صحت ارزش‌های اصلاحی ژنومی مورد ارزیابی قرار گرفت. به همین منظور، پس از شبیه‌سازی جمعیت­های پایه، تاریخی، مرجع و تایید، ژنوتیپ­های جمعیت مرجع به‌عنوان پانل مرجع در نظر گرفته شدند. به‌طوری‌که پس از ذخیره ژنوتیپ­های جمعیت تایید و اعمال درصدهای مختلف حذف، برای استنباط ژنوتیپ­های ازدست‌رفته از ژنوتیپ­های جمعیت مرجع به‌عنوان راهنما استفاده شد. در این مطالعه، در ژنوتیپ حیوانات تایید، اطلاعات ژنوتیپی ۵، ۱۰، ۲۰، ۵۰، ۷۰ و ۹۰ درصد از نشانگرها حذف و با بهره گرفتن از دو روش تخصیص تصادفی و روش جنگل تصادفی استنباط شدند.
۳-۱۰- روش‌های استنباط ژنوتیپی
۳-۱۰-۱-روش تخصیص تصادفی
این روش بر مبنای فرض تعادل هاردی-واینبرگ عمل می­ کند و ژنوتیپ­های ازدست‌رفته را بر اساس فراوانی آللی و ژنوتیپی در پانل راهنما استنباط می­ کند. با فرض دو آلل و سه ژنوتیپ در هر جایگاه نشانگری، اگر فراوانی آلل ۱ و ۰ به‌ترتیب p و ۱-p باشد درنتیجه ژنوتیپ ازدست‌رفته را بر اساس احتمال ژنوتیپ­ها در هر جایگاه نمونه گیری می­ کند. نمونه گیری از فضای نمونه توزیع فراوانی ژنوتیپ­ها به این صورت می­باشد:

استنباط ژنوتیپ­ها به روش تخصیص تصادفی با بهره گرفتن از بسته synbreed Version 0.10-4 (ویمر و همکاران، ۲۰۱۴) انجام شد.
۳-۱۰-۲- روش جنگل تصادفی
ماتریس نشانگری X حاوی عناصر Xij (ژنوتیپ نشانگر j ام برای فرد i ام) را در نظر بگیرید. ۱) ابتدا در ماتریس X نشانگرها بر اساس درصد اطلاعات ژنوتیپی ازدست‌رفته­ رتبه ­بندی می­شوند و سپس اطلاعات از دست‌رفته به‌وسیله روش MNI (Mean Neighbor Imputation) که روشی حد واسط است استنباط می­شوند. MNI یک استنباط اولیه از ژنوتیپ از دست رفته نشانگر j (j امین SNP) را به‌دست می­دهد که به‌عنوان یک پیش برآورد برای RF قلمداد می­ شود. ۲) سپس در هر نشانگر j که حاوی ژنوتیپ­های ازدست‌رفته است (Xmis، در این مرحله ژنوتیپ استنباط شده توسط MNI)، اطلاعات معلوم (Xobs) برای ایجاد یک RF با مثلاً ۱۰۰ درخت مورد استفاده قرار می­گیرد (۱۰۰Ψ….۱Ψ). هر درخت با بهره گرفتن از یک نمونه از Xobs ها شروع به رشد می­ کند و در هر گره انشعاب صورت می­گیرد تا در نهایت به گره­های پایانی می­رسیم. ۳) Xmis­ها با میانگین‌گیری از نتیجه ۱۰۰ درخت و به‌صورت زیر استنباط می­شوند:

در رابطه فوق X یک بردار ورودی است که حاوی اطلاعات ژنوتیپی برای نشانگر j است. ۴) اطلاعات ژنوتیپی نشانگر j در ماتریس X با بهره گرفتن از مقادیر در اصطلاح update می­ شود. (۵) مراحل ۲ تا ۴ برای نشانگرهای بعدی تکرار می­شوند تا زمانی که همه ژنوتیپ­های ازدست‌رفته استنباط شوند. این الگوریتم با بهره گرفتن از تابع missForest بسته نرم افزاری randomForest Version 4.6-10 (لیاو، ۲۰۱۴) به‌کار گرفته شد.
۳-۱۱- صحت استنباط ژنوتیپ
برای سنجش صحت ژنوتیپ­های استنباط شده روش‌های متعددی ارائه شده است. برخی از آن‌ها مانند شاخص درصد ژنوتیپ­های به‌درستی استنباط شده به‌شدت وابسته به فراوانی آللی است (هیکی و همکاران، ۲۰۱۲). بنابراین، نتایج حاصله ممکن است اریب باشند. در این مطالعه از همبستگی بین ژنوتیپ­های استنباط شده با ژنوتیپ­های واقعی استفاده شد. این شاخص توسط هیکی و همکاران (۲۰۱۲) که نقاط قوت و ضعف شاخص­ های مختلف را بررسی کردند، به‌عنوان بهترین شاخص برای ارزیابی عملکرد روش‌های مختلف استنباط ژنوتیپ پیشنهاد شده است.
۳-۱۲- صحت پیش ­بینی ارزش‌های اصلاحی ژنومی حاصل از ژنوتیپ استنباط شده
جهت بررسی تاثیر استنباط ژنوتیپ بر صحت پیش ­بینی ارزش‌های اصلاحی ژنومی، ابتدا اثرات نشانگری برای هرکدام از جایگاه‌ها برآورد و سپس ارزش‌های اصلاحی ژنومی در جمعیت تایید برای هرکدام از افراد برآورد شد (GEBV). در مرحله بعد، پس از استنباط ژنوتیپ­های ازدست‌رفته مجدداً ارزش‌های اصلاحی برای حیوانات کاندیدا برآورد شد (GEBV_GI). به‌منظور بررسی کارایی استنباط ژنوتیپی در برنامه ­های اصلاح نژادی و تاثیر استنباط ژنوتیپی بر صحت ارزش‌های اصلاحی ژنومی برآورد شده از همبستگی بین GEBV و GEBV_GI استفاده شد. دو روش فوق‌الذکر، در درصدهای مختلف حذف (۵، ۱۰، ۲۰، ۵۰، ۷۰ و ۹۰ درصد) و نیز در سطوح مختلف عدم تعادل لینکاژی (۱/۰، ۲/۰ و ۳/۰) مقایسه شدند.
فصل چهارم

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...