מֵידָע

כיצד אוכל למדוד מרחק גנטי?


אני לא בטוח איך למדוד מרחק גנטי. נראה שיש הרבה משוואות שונות, וכל אלה שמצאתי די ישנים.

בבעיה הספציפית שלי אני רוצה לראות אם הטוויסט בקולגן שונה אם המינים שונים. (יש לי תוכנית לחזות את טוויסט הקולגן לפי רצף חומצות האמינו)

לכן אני רוצה ערך מספרי אובייקטיבי לבסס את ההשוואה שלי. "המרחק הגנטי הסטנדרטי של ניי" נראה טוב, אבל הוא ישן מאוד ולכן תהיתי אם יש אלטרנטיבה מודרנית. האם יש חבילת R או משהו כזה לחישוב אוטומטי?


יש כאן כמה תשובות, קצת לא ברור מה הכי קרוב למה שאתה רוצה.

[נערך כדי להיות שלם וישיר יותר]

1) המרחק של ניי מיועד בעיקר להשוואת אוכלוסיות מאותו מין, כך שזה אמור להיות בסדר אם זה מה שאתה עושה. אני מנחש שעל סמך ההודעה שלך אתה מתעניין יותר בהשוואות בין מינים. כמובן שההיגיון זהה, פשוט המתמטיקה שונה. עבור סטייה בקרב האוכלוסייה, Fst (מדד קיבעון) משמש גם בדרך כלל. אבל אם אתה משתמש ביישור רצף או בכמה נתונים כאלה לחישוב מרחקים גנטיים, יש המון המון מדדים. חלקם פשוטים מאוד- למשל, תוכל להשתמש במרחק המרחק ופשוט לספור את מספר הבדלי השאריות בין כל רצף.

באשר לחישוב המדדים הללו, יש שרת אינטרנט בשם GenePop באינטרנט שיחשב עבורך Fst אם תחבר מערך נתונים. אני לא יודע על חבילות R שמחשבות את הדברים האלה, אני מניח שרק אם תסתכל בויקיפדיה שפונקציות קידוד לעשות זאת יהיו טריוויאליות יחסית (אם אתה מרגיש בנוח עם r).

2) אם אתה באמת מחפש בין מינים, גישה קצת יותר מתאימה עשויה להיות לדגמן את המינים שלך בפילוגניה, במקום להשתמש בשיטות מרחק (למרות שהשניים מנסים לפתור את אותה הבעיה). יש הרבה תוכנות מקוונות לשימוש זה, למשל: FastML. אתה יכול פשוט להעתיק ולהדביק שם יישור seq. אחרי שיש לך את העץ בפורמט newick למשל, ישנם כלים טובים להדמיית עצים הן באינטרנט ב- iTOL והן דרך R עם APE.

ל- APE יש גם כלי עבודה טובים למידול תהליכים פילוגנטיים, כך שבאופן עקרוני תוכל לדגמן באופן ישיר שינויים בקפלי חלבון לאורך הזמן האבולוציוני (בהנחה שיש לך סיכום משמעותי של קיפול חלבונים, רציף או נפרד).

אין לי מספיק מוניטין כדי לקשר ליותר מהמשאבים שציינתי, מצטער.


אני חושב שהגישה שלי תהיה ליצור עץ פילוגנטי ולצבוע את העצות על ידי טוויסט קולגן. ישנן מספר חבילות R שיסייעו בזה, כולל APE, ADE4 ו- poppr. כדי ליצור עץ פילוגנטי, תחילה אתה מחשב מרחק. הזכרת את זה של ניי, וזה עדיין עדיין בשימוש די חביב. אני יודע שאתה לא עושה גנטיקה של אוכלוסיות, אבל עיין במדריך זה: https://grunwaldlab.github.io/Population_Genetics_in_R/Pop_Structure.html. הם מחשבים את Gst (המוזכר בהערה השנייה), מדברים על כמה מדדים רחוקים שונים (כולל Nei), מייצרים עצים פילוגנטיים, והכל ב- R. הם אפילו צובעים את הטיפים לפי אוכלוסייה - במקרה שלך האוכלוסיות שלך היו היו סוגים של טוויסט קולגן עם הדגימות שלך על פי מינים (Lizard-1, Lizard-2, Chimp-1, Chimp-2, וכו '). תוכל גם לצבוע את העצות לפי מינים ולתת את שם הדגימות שלך לפי סוג הטוויסט (קדימה -1, קדימה -2, אחורה -2 וכו '). אני יודע שהשאלה הזו ישנה, ​​אבל אני מקווה שמישהו אחר שמעד כאן ימצא את התשובה הזו מועילה.


מבנה האוכלוסייה: (G_), מרחק גנטי ואשכולות

בפרק זה אנו בוחנים דרכים שונות להעריך אם האוכלוסייה בנויה (למשל, מובחנת). אתה יכול לחשוב על מבנה האוכלוסייה כזיהוי אשכולות או קבוצות של אנשים קרובים יותר הנובעים מזרימה גנטית מופחתת בין קבוצות אלה. ניתן ללמוד אוכלוסיות כדי לקבוע אם הן בנויות על ידי שימוש למשל בסטטיסטיקות סיכום של התמיינות אוכלוסין (למשל (G_)), אשכולות או רשתות מינימליות המשתרעות. שים לב, פרק זה ישתמש במערכות נתונים רבות בשל התכונות הייחודיות המוצעות על ידי כל אחת. בואו נתבונן תחילה בדוגמה של התמיינות אוכלוסין המבוססת על (G_) .


טקסט ראשי

חיוני לאזן בין הגנת הפרטיות ושיתוף הנתונים בגנומיקה [1,2,3]. חשיפה מלאה של נתונים גנומיים מיטיבה עם קהילת המחקר באמצעות שימוש חוזר בנתונים, אך מגדילה את הסיכויים להפרות פרטיות. סגירה מלאה, לעומת זאת, מבטיחה פרטיות אך מרתיעה מדע שיתופי.

כאן אנו מציגים שיטה הנקראת GPS גנומי שמטרתו להשיג איזון בין שיתוף נתונים והגנה על פרטיות. הוא מאפשר שיתוף מידע במידה מספקת לקירוב המרחק הגנטי היחסי של הפרט מאדם אחר או מקבוצה. אפשר לזהות קרובי משפחה וניתוחים גנומיים של אוכלוסייה, כגון פירוק מוצא ומיפוי מוצא גיאוגרפי. אך חשוב לציין שהמידע המשותף מסתיר גנוטיפים בודדים, מה שמקשה מאוד על שחזור הגנום האישי.

השיטה שלנו בונה על רב -צדדית, טכניקת לוקליזציה לרשתות חיישנים אלחוטיות בהן נסקרים קואורדינטות מרחביות של צומת עם מיקום לא ידוע על ידי מדידת המרחקים מהצומת למספר צמתים ייחוסיים במיקומים ידועים [4]. לדוגמה, במערכת הניווט ה- GPS של כלי טיס, המרחקים מהמטוס ללוויינים מחושבים לפיגורי זמן באותות רדיו משודרים. מרחקים אלה משמשים לאחר מכן לחישוב מיקום המטוס (איור 1 א).

GPS גנומי ויישומה לדגימת גילוי חפיפה. א הרעיון של GPS קונבנציונאלי. מרחקים ללוויינים משמשים לחישוב מיקום המטוס. ב הרעיון של ה- GPS הגנומי. המרחקים הגנטיים של אדם להתייחסות לאנשים במערכות נתונים ציבוריות מחושבים ליצירת וקטור מרחק. ג ניתן לשתף וקטורים למרחקים, למשל, באמצעות מרכז נתונים ציבורי. ד מדגם זיהוי חפיפה באמצעות וקטורים למרחקים. וקטורי המרחק של שני פרטים מושווים באמצעות נתון העוקב א χ 2 הפצה. ה כוחה של שיטת גילוי החפיפה של המדגם כפונקציה של מספר הלוקוסים ומספר הפרטים המשמשים לחישוב המרחקים הגנטיים. ו פ ערכים של שיטת גילוי החפיפה לדוגמא לזוגות חופפים וזוגות לא קשורים בסימולציות באמצעות נתוני WTCCC

כדי ליישם ריבוי רב בהקשר גנומי, העריכנו תחילה את מאפייני הטכניקה הזו במרחב רב ממדי. הפקנו הוכחה מתמטית המראה כי ב- נ-מרחב ממדי, ועם ק צמתי התייחסות עם מיקומים ידועים, ניתן לזהות באופן חד משמעי קואורדינטות של צומת לא ידוע אם ק & gt נ (קובץ נוסף 1: הערה משלימה). אולי חשוב מכך, הפקנו הוכחה נוספת המראה כי לעולם לא ניתן לציין בדיוק את קואורדינטות הצומת הלא ידוע אם ק & lt נ - 1 (קובץ נוסף 1: הערה משלימה). זה היה מעודד מכיוון שהציע שהמרחקים לצמתים הידועים יעבירו מידע מוגבל בתנאי זה וניתן לחלקם בבטחה מבלי לחשוף את המיקום בפועל.

בעידוד ההוכחה הזו, יישמנו ריבוי צדדים לנתונים גנומיים. ראינו את נתוני הגנוטיפ של האדם כצומת פנימה נ-מרחב ממדי שבו כל קואורדינטות מייצגות כל אחת מהן נ לוקוסים פולימורפים. במרחב זה, המרחק האוקלידי בזוג בין הצמתים מייצג את המרחק הגנטי בין פרטים (איור 1 ב). לאחר מכן מדדנו מרחקים גנטיים מאותו אדם אל ק התייחסות לאנשים במערכות נתונים פתוחות כגון 1000Genomes [5] מערכי נתונים אלה מקבילים ללוויינים בעלי עמדות ידועות. אנו קוראים לאורך-ק וקטור המרחקים "וקטור מרחק”. הרעיון המרכזי של הגישה שלנו הוא לשתף וקטור מרחק שיאפשר סוגים מסוימים של ניתוח גנומי מבלי לחשוף את נתוני הגנום האישי (איור 1 ג).

אם דמייננו שגנוטיפים הם מספרים אמיתיים, אי אפשר תיאורטית לשחזר את הגנוטיפים כל עוד נק, כפי שמוצג בהוכחה שלנו. למרבה הצער, נתוני גנוטיפ שוכנים במרחב מוגבל מאוד, <0, 1, 2>נ . עם זאת, שטח החיפוש עדיין גדול מספיק כדי למנוע שחזור נתונים בפועל. עיצבנו אלגוריתם חמדני המנסה לשחזר את נתוני הגנוטיפ בהתחשב בווקטור מרחק ונתוני התייחסות (קובץ נוסף 1: הערה משלימה) והחלנו אותו על נתונים מדומים. כדי להימנע מאופטימה מקומית, אפשרנו הפעלות מרובות של האלגוריתם למצוא את הפתרון הטוב ביותר האפשרי. הגנוטיפים החזויים לא היו טובים בהרבה מנבואה גסה המבוססת על תדירות האלל (קובץ נוסף 1: איור S1). סימולציות אמפיריות אלה הראו שלא היה מעשי לשחזר גנוטיפים מתוך וקטור מרחק.

שיתוף וקטורים למרחקים מאפשר מספר יישומים. ראשית, אנו יכולים להשתמש בדמיון של שני וקטורים למרחקים כדי למצוא חפיפות מדגם או קרובי משפחה. באופן אינטואיטיבי, אם גנום משני פרטים דומים זה לזה, וקטורי המרחק שלהם יהיו דומים גם הם. כדי לפרש באופן שיטתי את הדמיון בווקטורים למרחקים, עיצבנו את הנתון הבא. לתת איקסt, נ ∈ <0, 1, 2> להיות ספירת האלל ההתייחסות של הפרט t ב- SNP נ. המרחק האוקלידי בריבוע בין פרטים t ו u הוא ( _= סכום גבולות_^N < שמאל (_-_ מימין)>^2 ). לתת דt, ק להיות המרחק בין t והתייחסות אישית ק. נָתוּן ק יחידות התייחסות, וקטור המרחק של הפרט t הוא vt = (דt, 1, דt, 2…, דt, ק). לאחר מכן, אנו מגדירים נתון המשווה שני וקטורים למרחקים, vt ו vu:

כאשר Σ היא מטריצת השונות של vtvu. הראינו (קובץ נוסף 1: הערה משלימה) כי (אני, י) האלמנט של Σ הוא

איפה עמנ היא תדירות האלל באוכלוסייה של SNP נ. הנתון שחֲפִיפָה עוקב אחר א χ 2 הפצה עם ק דרגות חופש אם t ו u אינם קשורים (איור 1 ד) ולכן נוכל לבדוק האם שני אנשים קשורים זה לזה על ידי חישוב א פ ערך מהזנב התחתון. השיעור החיובי הכוזב נשלט היטב (קובץ נוסף 1: טבלה S1 ואיור S2), והספק גבוה היה ניתן להשיג למספרים סבירים של נ ו ק (איור 1e). נתון זה יכול להיות שימושי אם חוקרים במוסדות שונים רוצים לבדוק האם יש אנשים חופפים בדגימות שלהם, מכיוון שחפיפות מדגם עלולות לזהם את התוצאה של מחקרים מצטברים כגון מטא-אנליזות. במקום המרחק האוקלידי בריבוע, אפשר להשתמש גם במדד הקשר הגנטי כמדד המרחק הגנטי. בהתחשב במספר האללים הסטנדרטי (< קו>_= שמאל (_-2

_n מימין)/ sqrt <2

_n left (1-

_n right)> ), הקשר הגנטי בין פרטים t ו u הוא ( _= frac <1>< sum> _^N < קו גבול>_< קו קו>_ ) [6]. באמצעות קשר גנטי, התוצאות היו דומות (קובץ נוסף 1: הערה משלימה ואיור S3). ביצענו ניתוח אמיתי מבוסס נתונים באמצעות נתוני Wellcome Trust Case Control Consortium (WTCCC) [7] על ידי תכנון מחקרים עם דגימות חופפות (קובץ נוסף 1: הערה משלימה). השיטה שלנו יכולה לזהות דגימות חופפות ברגישות וספציפיות מושלמות (איור 1f), כאשר משתמשים בנתוני 1000Genomes [5] כהפניה.

לאחר מכן בדקנו האם ניתן להבחין גם בקרובי משפחה באמצעות הנתונים הסטטיסטיים שלנו. הדמנו דרגות שונות של קרובי משפחה וחזינו את הקשר האמיתי לזוג נתון באמצעות הנתונים הסטטיסטיים שלנו. בקרב קרובי משפחה מדרגה ראשונה, 79% ניבאו נכון כתואר ראשון (קובץ נוסף 1: איור S4 ו- S5). קרובי משפחה מעבר לתואר הראשון היו פחות מובחנים, כאשר 39% ו- 21% מקרובי המשפחה מדרגה שנייה ושלישית ניבאו נכון, בהתאמה. בסיכום, וקטורי המרחק מכילים מידע מספיק כדי לקבוע דגימות חופפות ולתת רמזים לקרובים קרובים, מה שיכול להיות שימושי עבור סוגים מסוימים של ניתוחים. עם זאת, חשיפה כזו יכולה להיחשב לדליפת מידע במצבים מסוימים. במצבים אלה, ניתן לשקול חלופות כגון hashing מאובטח [3] לאיתור חפיפות מדגם.

היישום השני לשיתוף וקטור מרחק הוא ניתוחים גנומיים של אוכלוסייה. וקטור המרחק מכיל מידע שיכול להסיק את המבנה המרחבי הגנטי של פרטים. מחקרים אחרונים הראו כי נתונים גנטיים אפשרו לאתר את מוצאו הגיאוגרפי של הפרט על מפה דו-ממדית (2D) [8, 9]. נובמבר ואחרים. [8] יישמה ניתוח רכיבים עיקריים (PCA) על הנתונים הגנומיים של 3192 אירופאים מ -36 מדינות (מאגר הנתונים של POPRES [10]), כאשר שני המרכיבים העיקריים (PC) התאימו בדיוק את המפה הגיאוגרפית של אירופה. תכננו הליך הממיר וקטור מרחק למיקום משוער במרחב המחשב האישי (קובץ נוסף 1: הערה משלימה). קח בחשבון שיש לנו ק אנשים מפנים. תחילה אנו מיישמים את הרכב ההרכב על מטריצת הקשר הגנטי שלהם (GRM) כדי להשיג את שני הווקטורים העצמיים (מחשבים אישיים) במרחב דו -ממדי, ( mathcal

). בהתחשב באיש מטרה, אנו רוצים לקרב את מיקומו ב ( mathcal

). נניח שיש לנו את וקטור המרחק של המטרה ק הפניות המבוססות על מדד הקשר הגנטי. לאחר מכן, אנו יכולים לבנות את ה- GRM של ה- ק + 1 אנשים (ההפניות והיעד) על ידי צירוף וקטור המרחק ל- GRM. אנחנו מפרקים את זה (ק + 1) × (ק + 1) GRM לקבלת מפת מחשב של ק + 1 אנשים בחלל דו -ממדי חדש, ( mathcal

^ < prime> ). העמדות של ק הפניות ב- ( mathcal

^ < prime> ) אינם זהים למיקומיהם ב- ( mathcal

), מכיוון שהוספת נקודת נתונים נוספת ב- PCA יכולה לעוות את המיקומים של הנקודות האחרות (קובץ נוסף 1: איור S6). בגלל הבדל עדין זה, על מנת להקרין את נקודת היעד מ ( mathcal

^ < prime> ) ל- ( mathcal

), אנו מיישמים שכבה נוספת של "ריבוי רב -צדדי". שימוש במפה ב- ( mathcal

^ < prime> ), אנו מחשבים את המרחקים האוקלידיים הדו -ממדיים בין המטרה וההפניות ליצירת וקטור מרחק. באמצעות טכניקת ריבוי הרב -גוני הסטנדרטית, ניתן להשתמש בווקטור מרחק זה כדי למפות את מיקום היעד ב- ( mathcal

) במינימום המרובע [4]. לאחר חזרה על הליך זה עבור כל יעד, מתקבלת מפת ה- PC המשוערת של כל יחידי היעד על ידי הסרת נקודות נתונים של הפניה מ ( mathcal

) .

כדי להעריך את ביצועי השיטה שלנו, השתמשנו בנתוני POPRES [10] (קובץ נוסף 1: טבלה S2) תוך שימוש ב -60% מהאנשים כדוגמאות ו -40% כהפניות (קובץ נוסף 1: הערה משלימה). מיפוי מקורות הדגימות בשיטה שלנו (איור 2 א) דומה מאוד למיפוי המחשב האישי המבוסס על נתוני גנוטיפ בפועל (איור 2 ב). תמונת הפלט דמה למפה הגיאוגרפית של אירופה, כאשר אוכלוסיות סמוכות גיאוגרפית נמצאו קרוב זו לזו ואוכלוסיות מרוחקות גיאוגרפית שנמצאות רחוקות זו מזו. לאחר מכן ניסינו למפות את נתוני POPRES באמצעות דגימות 1000Genomes [5] כנתוני הפניה. בסך הכל, המיקומים המשוערים של האוכלוסיות היו דומים למפה האירופית (קובץ נוסף 1: איור S7). עם זאת, ההבחנה בין האוכלוסיות המזרחיות/רוסיות לאוכלוסיות מרכז אירופה לא הייתה ברורה, אולי מכיוון שיש נתונים דלילים מאוכלוסיות אלה במערך ההתייחסות הזה [5].

יישומים גנומיים לאוכלוסייה של וקטורים למרחקים. א מיפוי דו ממדי של האירופאים בנתוני POPRES באמצעות וקטורי מרחק בלבד. מיפינו קבוצת משנה (60%) מאנשי POPRES והשתמשנו בשאר האנשים (40%) כהפניות. ראה קובץ נוסף 1: טבלה S2 לשמות האוכלוסייה המקוצרים. ב תוצאת מיפוי של אותם אנשים המשתמשים בנתונים גנומיים אמיתיים (שני המחשבים המובילים). ג הערכה של שיעור התערובת באמצעות וקטורים למרחקים. הדמנו אנשים מעורבים משתי אוכלוסיות רחוקות (GBR: בריטים באנגליה ובסקוטלנד ו- JPT: יפנים בטוקיו, יפן) ושתי אוכלוסיות קרובות (GBR ו- TSI: Toscani in Italia) באמצעות נתוני 1000Genomes. ד שילוב של שלוש אוכלוסיות (GBR, CHS: דרום האן סינית, ו- YRI: יורובה באיבדן, ניגריה). הפרופורציות נאמדו באמצעות וקטורי מרחק ו- ADMIXTURE

יישום נוסף לשיתוף וקטורים למרחקים בגנומיקה של אוכלוסייה הוא הסקת הפרופורציות של תערובת אתנית של הפרט. תכננו הליך להערכת שיעור התערובת של אדם בלבד באמצעות וקטור המרחק (קובץ נוסף 1: הערה משלימה). הרעיון הוא לקרב את מיקומו של אדם יעד במפת המחשב האישי של אוכלוסיות ההתייחסות המרובות. אנו מודדים את המרחק האוקלידי של הפרט לצנטרואיד של כל אוכלוסיית מועמדים ומעריכים את פרופורציות המוצא כפרופורציות הפוכות למרחקים אלה. באמצעות נתוני 1000Genomes, סימנו אנשים מעורבים משתי אוכלוסיות, בהדרגה משתנים את הפרופורציות. כאשר שתי האוכלוסיות היו רחוקות גנטית (אירופאי ואסיאתי), השיעור המשוער היה קרוב לשיעור האמיתי (r 2 = 0.98, איור 2 ג). כאשר שתי האוכלוסיות היו קרובות מבחינה גנטית (שתי מדינות אירופה), ההערכה הייתה פחות מדויקת אך הראתה מתאם גבוה לשיעור האמיתי (r 2 = 0.86, איור 2 ג). לאחר מכן שילבנו נתונים עבור שלוש אוכלוסיות (אירופאיות, אסיאתיות ואפריקאיות) בפרופורציות שונות. לשם השוואה, יישמנו שיטה קיימת, ADMIXTURE [11], המשתמשת בנתוני גנוטיפ בפועל (קובץ נוסף 1: הערה משלימה). הן ADMIXTURE והן השיטה שלנו נתנו אומדנים התואמים מאוד את הפרופורציות האמיתיות (איור 2 ד).

הצגנו טכניקה חדשה המיישמת ריבוי צדדים על נתונים גנומיים. השיטה שלנו מאפשרת שיתוף וקטורים למרחקים עם חוקרים או מוסדות אחרים, ומאפשרת סוגים מסוימים של ניתוח גנומי תוך הקשה על שחזור הגנום האישי. אנו מצפים כי גישתנו תמצא יישומים מעניינים בעתיד בנוסף לאלה המתוארים במסמך זה.


ג'נדיסט - חישוב מרחקים גנטיים מתדרי הגן

© זכויות יוצרים 1986-2008 של אוניברסיטת וושינגטון. נכתב על ידי יוסף פלזנשטיין. ניתנת רשות להעתיק מסמך זה ובלבד שלא נגבה עבורו תשלום ושהודעת זכויות יוצרים זו לא תוסר.

תוכנית זו מחשבת כל אחד משלושה מדדים של מרחק גנטי ממכלול תדרי גנים באוכלוסיות (או מינים) שונים. השלושה הם המרחק הגנטי של ניי (ניי, 1972), מידת האקורד של קוואלי-ספורזה (קוואלי-ספורזה ואדוארדס, 1967) ורינולדס, וייר וקוקרהם (1983). אלה נכתבים לקובץ פלט בפורמט שניתן לקרוא אותו על ידי תוכניות פילוגניות מטריקס מרחק פיטש וקיטש.

לשלושת המדדים יש הנחות שונות במקצת. כולם מניחים שכל ההבדלים בין אוכלוסיות נובעים מסחף גנטי. המרחק של ניי מנוסח למודל מוטציה אינסופי של isoalleles, שבו יש שיעור של מוטציה ניטרלית וכל מוטציה היא לאלל חדש לגמרי. ההנחה היא שלכל המיקומים יש אותו שיעור מוטציה נייטרלית, וכי השונות הגנטית בתחילה באוכלוסייה נמצאת בשיווי משקל בין מוטציה להיסחפות גנטית, כאשר גודל האוכלוסייה האפקטיבי של כל אוכלוסייה נשאר קבוע.

כאשר m מסוכם על פני לוקוסים, i על אללים בנקודה ה- m, והיכן

הוא תדירות האלל ה- i במקום ה- m באוכלוסייה 1. בכפוף להנחות הנ"ל, המרחק הגנטי של ניי צפוי, למדגם של לוקוסים שווים מספיק, לעלות באופן ליניארי עם הזמן.

שני המרחקים הגנטיים האחרים מניחים שאין מוטציה, וכי כל השינויים בתדר הגנים הם על ידי סחיפה גנטית בלבד. עם זאת הם אינם מניחים שגדלות האוכלוסייה נותרו קבועות ושוות בכל האוכלוסיות. הם מתמודדים עם שינוי האוכלוסייה על ידי כך שיש להם ציפיות שעולות באופן לינארי לא עם הזמן, אלא עם הסכום לאורך זמן של 1/N, כאשר N הוא גודל האוכלוסייה האפקטיבי. כך שאם גודל האוכלוסייה יכפיל את עצמו, הסחיפה הגנטית תתקיים לאט יותר, והמרחק הגנטי צפוי לעלות רק במחצית מהירות ביחס לזמן. שני המרחקים הגנטיים הם אומדנים שונים של אותה כמות תחת אותו מודל.

מרחק האקורד של קוואלי-ספורזה ניתן על ידי

כאשר m מדגיש את הלוקוסים, כאשר i מסוכם על האללים במיקום ה- m, ואיפה a הוא מספר האללים במיקום m-th. ניתן להראות כי המרחק הזה תמיד מספק את אי השוויון במשולש. שים לב שכפי שניתן כאן הוא מחולק במספר דרגות החופש, סכום מספרי האללים מינוס אחד. הכמות שצפויה לעלות באופן לינארי עם כמות הסחף הגנטי (סכום של 1/N לאורך זמן) היא D בריבוע, הכמות המחושבת למעלה, וזה מה שנכתב למטריצת המרחק.

המרחק הגנטי של ריינולדס, וייר וקוקרהם (1983) הוא

כאשר הסימון הוא כמו קודם ו- D 2 הוא הכמות שצפויה לעלות באופן לינארי עם סחף גנטי מצטבר.

לאחר חישוב אחד המרחקים הגנטיים הללו, אחד שלדעתך מתאים לביולוגיה של המצב, תוכל להשתמש בו כקלט לתוכניות פיץ ', קיטש או שכנה. זכור כי המודל הסטטיסטי בתוכניות אלה מניח במרומז כי למרחקים בטבלת הקלט יש טעויות עצמאיות. עבור כל מדד למרחק הגנטי זה לא יהיה נכון, שכן התפרצויות של סחף גנטי אקראי, או אירועי דגימה במשיכת מדגם הפרטים מכל אוכלוסייה, גורמות לתנודות בתדירות הגן המשפיעות על מרחקים רבים בו זמנית. אמנם זה לא צפוי להטות את אומדן הפילוגניה, אך המשמעות היא ששקילת הראיות מכל המרחקים השונים בטבלה לא תיעשה ביעילות מירבית. סוגיה אחת היא באיזה ערך יש להשתמש בפרמטר P (כוח). זה תלוי כיצד השונות של המרחק עולה עם הציפייה שלה. למרחק האקורד של קוואלי-ספורזה, ולריינולדס ואח '. אל. מרחק ניתן להראות שהשונות של המרחק תהיה פרופורציונאלית לריבוע הציפיות שלה זה מצביע על ערך 2 עבור P, שערך ברירת המחדל של פיץ 'וקיטש (אין אפשרות P בשכן).

אם אתה חושב שמודל הסחף הגנטי הטהור מתאים, ולכן אתה מתפתה להשתמש ב- Cavalli-Sforza או Reynolds et. אל. למרחקים, תוכל לשקול להשתמש בתוכנית Contml של הסבירות המרבית במקום זאת. זה ישקול נכון את הראיות במקרה זה. בדומה למרחקים גנטיים אלה, הוא משתמש בקירובים המתפרקים כאשר לוקוסים מתחילים להיסחף עד לקיבוע. למרות שהמרחק של ניי לא יישבר במקרה זה, הוא מניח הנחות אחרות לגבי שיוויון שיעורי ההחלפה בכל המקומות והקביעות של גודל האוכלוסייה.

הדבר החשוב ביותר שיש לזכור הוא שהמרחק הגנטי אינו מדד מופשט ואידיאלי של "שונות". זוהי הערכה של פרמטר (זמן או גודל אוכלוסייה יעילה הפוכה) של המודל, שנחשב כי יצר את ההבדלים שאנו רואים. כהערכה, יש לה מאפיינים סטטיסטיים שניתן להעריך, ולעולם לא נצטרך לבחור בין מרחקים גנטיים המבוססים על תכונותיהם האסתטיות, או על יוקרתם האישית של יוצאיהם. התייחסות אליהם כהערכות ממקדת אותנו בשאלות שאליהן נועדו לענות מרחקים גנטיים, שכן אם אין כאלה אין סיבה לחשב אותן. לפרספקטיבה נוספת על מרחקים גנטיים, אני ממליץ על המאמר שלי להעריך מרחקים גנטיים שונים (פלזנשטיין, 1985 ג), ריינולדס, וייר וקוקרהם (1983), והחומר בספרו של ניי (ניי, 1987).

פורמט הכנסה

הקלט לתוכנית זו הוא סטנדרטי והוא כמתואר בקובץ התיעוד של תוכניות תדרי גנים ותווים מתמשכים לעיל. הוא מורכב ממספר האוכלוסיות (או המינים), מספר הלוקוסים, ולאחר מכן שורה המכילה את מספר האללים בכל אחד מהמקומות. אז תדרי הגן עוקבים בפורמט סטנדרטי.

האפשרויות נבחרות באמצעות תפריט:

האפשרות A (כל אללים) מתוארת בקובץ התיעוד תוכניות תדרי גנים ותווים רציפים. בדומה ל- Contml, זהו האות שכל האללים מיוצגים בקלט תדר הגנים, מבלי שאחד יישאר בחוץ לכל מוקד. C, N ו- R הם האותות לשימוש ב- Cavalli-Sforza, Nei או Reynolds et. אל. מרחקים גנטיים בהתאמה. מרחק Nei הוא ברירת המחדל, והוא ייחשב אם אף אחת מהאפשרויות הללו לא תיעשה במפורש. האפשרות L היא האות לפיו יש לכתוב את מטריצת המרחק בצורה משולשת תחתונה. האפשרות M היא האפשרות הרגילה של מערכי נתונים מרובים, שימושית לביצוע ניתוחי רצועות אתחול עם תוכניות מטריצת המרחק. היא מאפשרת ערכות נתונים מרובות, אך אינה מאפשרת ערכות משקולות מרובות (מאחר ואין תוכנית לשקלול בתוכנית זו).

פורמט פלט

קובץ הפלט פשוט מכיל בשורה הראשונה את מספר המינים (או האוכלוסיות). כל מין (או אוכלוסייה) מתחיל קו חדש, כאשר שמו מודפס תחילה, ולאחר מכן ומודפסים עד תשעה מרחקים גנטיים על כל שורה, בפורמט הסטנדרטי המשמש כקלט על ידי תוכניות מטריצת המרחק. הפלט, בצורת ברירת המחדל שלו, מוכן לשימוש בתוכניות מטריצת המרחק.

קבועים

המשתמש יכול לשנות "אפסילונג" קבוע על ידי המשתמש אם התוכנית נערכת מחדש, המגדירה כמות קטנה המשמשת בעת בדיקה אם תדרי האלל בסכום לוקוס ליותר מאחד: אם כל האללים נכנסים (אפשרות A) ו הסכום שונה מ 1 על יותר מאשר epsilong, או אם לא כל האללים נקלטים והסכום גדול מ 1 על יותר מאשר epsilon, התוכנית תראה בכך שגיאה ותפסיק. אתה עשוי לגלות שזה גורם לקשיים אם תדרים שלך מעוגלים. ניסיתי למנוע מ- epsilong להיות קטן מכדי למנוע בעיות כאלה.

זמני ריצה

התוכנית די מהירה והמשתמש לעולם לא צריך להיות מוגבל בכמות הזמן הנדרשת. כל מה שהתוכנית צריכה לעשות זה לקרוא בנתוני תדר הגנים ולאחר מכן, עבור כל זוג מינים, לחשב נוסחת מרחק גנטי לכל זוג מינים. זה צריך לדרוש כמות מאמץ ביחס למספר האללים הכולל על פני לוקוסים, ולריבוע מספר האוכלוסיות.

עתיד התוכנית הזו

השינוי העיקרי שייעשה בתוכנית זו בעתיד הוא הוספת הוראות להתחשבות בגודל המדגם לכל אוכלוסייה. נוסחאות המרחק הגנטי שונו על ידי הממציאים שלהן כדי לתקן את חוסר הדיוק של אומדן המרחקים הגנטיים, שבסך הכל אמור להגדיל באופן מלאכותי את המרחק בין אוכלוסיות בכמות קטנה תלוי בגודל המדגם. הקושי העיקרי לעשות זאת הוא שעדיין לא הסתפקתי בפורמט להצבת גודל המדגם בנתוני הקלט יחד עם נתוני תדר הגנים למין או אוכלוסייה.

אני יכול לכלול גם אמצעי מרחק אחרים, אבל רק אם אני חושב שהשימוש בהם מוצדק. יש הרבה מרחקים גנטיים מאוד שרירותיים, ואני לא נעים לכלול את רובם.


בוצעו סימולציות מחשב להשוואת ביצועי המרחקים במצבים שונים. הערכנו שלוש מאפיינים של מדדי המרחק. ראשית, בדקנו האם המדדים מספקים הערכה בלתי משוחדת ומדויקת של המרחקים בין אורגניזמים. שנית, בדקנו כיצד המרחקים השונים מסוגלים לזהות את התערובת הגנומית של פרטים היברידיים. שלישית, הערכנו עד כמה המדדים השונים הללו מדויקים.

דיוק מדידות מרחק

כדי לחקור אם מדדי המרחק היו מדויקים לאמוד מרחקים גנטיים בין פרטים, סימנו רצפים באוכלוסיות של אנשים טטרופלואידים (2נ=4איקס) לאורך עץ אוכלוסייה באמצעות ההתאחדות ואומד את המרחקים הגנטיים בין פרטים שהתפתחו בשושלות המתפתחות באופן עצמאי במשך פרקי זמן שונים. רצפי גנים של 1000 bp היו מדומים באמצעות versimcoal2 פסוקים. 2.5.0.2 (Excoffier & Foll 2011) על עץ אוכלוסייה שבו לאוכלוסיות היו גדלים אפקטיביים של 5000 עותקים של גנים, התואם 1250 אנשים טטרפלואידים. לשם הפשטות, גודל האוכלוסייה היעילה המשמשת בכתב היד הנוכחי מניח מעתה את ייצוג מספר העותקי הגן באוכלוסייה (). הפרטים שהושוו השתייכו לאוכלוסיות שהתבדלו באופן עצמאי במשך 0, 20 000, 40 000, 80 000, 120 000 ו 200 000 דורות (ז). שיעור מוטציה של נעשה שימוש במוטציה לאתר לדור, מה שמרמז על כך באוכלוסיות. יתר על כן, זמני ההבדלים גודלו בשיעור המוטציה (τ =זμ) היו שווים ל 0, 0 · 002, 0 · 004, 0 · 008, 0 · 012 ו- 0 · 02. זמני ההבדלים המגודלים הללו (τ) שימושיים מכיוון שהם מייצגים את מספר המוטציות הצפויות לאתר עבור רצף מאירוע ההבדלים בעץ האוכלוסייה ועד היום. עם זאת, זמני ההבדלים הצפויים של הרצפים גדולים יותר מזמן ההתבדלות באוכלוסייה שכן יש להתחשב בזמן להתאחדות הרצפים באוכלוסיית אבות (Nei, 1987 Edwards & Beerli 2000 Arbogast et al. 2002), השווה למספר הגנים באוכלוסייה () או θ/2 (Edwards & Beerli 2000). המרחק הגנטי הצפוי בין שני רצפים הוא אפוא כפול הציפייה לזמן ההתכנסות, שזה פי שניים מהזמן מאז הפערת האוכלוסייה ועוד פעמיים הציפייה לזמן ההתאחדות באוכלוסיית אבות: ד = 2τ+θ. מדדי המרחק הושוו לסטיית הרצף הצפויה הזו ועם ההבדל הצפוי באוכלוסייה (2τ). בוצעו סימולציות בשני גדלי אוכלוסייה, = 5000 עותקים של גנים (θ = 0 · 001) ו- = 10 000 (θ = 0 · 01), שהוחזקו קבועים לאורך כל העץ. גודל האוכלוסייה הגדול יותר הגדיל את מספר הפולימורפיזם אצל אנשים. כל הסימולציות חזרו על עצמן 2000 פעמים וכל שכפול מורכב מסמן DNA מדומה אחד. שים לב שהתסריטים והקוד המשמש לביצוע הסימולציות וניתוח הנתונים הופקדו על Zenodo (doi: 10.5281/zenodo.12555).

השפעת וריאציה ושיעור רקומבינציה

ההשפעה של שונות הקצב בין הגנים נבדקה לשיטות השונות. שונות השיעור שולבה על ידי הכפלת שיעור המוטציות במשתנה רגיל אקראי בעל ממוצע של 1 וסטיית תקן של 0 · 25. זה מרמז על כך ג. 95% מהשונות האקראיות נעות בין 0 · 5 ל –1 · 5, מה שמביא לשינוי שלישי הכולל בקצב בין הגנים. הגדרות אלה נבחרו מכיוון שמחקרים קודמים בצמחים מצאו שבאופן כללי 90% מהגנים מקימים וריאציה של תעריפים פי שלושה וכי התפלגות התעריפים היא תקינה בעיקרה (Zhang, Vision & Gaut 2002 Senchina et al. 2003), דפוס נראה דומה מאוד לזה שנמצא אצל יונקים (הודג'קינסון ואייר ווקר 2011). The same simulations as described previously for accuracy were performed with rate variation, and they were compared with the results without rate variation for accuracy and precision (standard deviation of distances between replicates).

We also investigated the effect of adding recombination on the performance of the different distance measures. Recombination was included in the DNA markers at a rate of . The simulations were exactly identical to those described previously for distance accuracy, except that we simulated DNA sequence of both 1000 bp and 10 000 bp. We compared the distributions of the results obtained with and without recombination using quantile–quantile plots.

Estimation of the Genomic Mixture of Hybrids

To investigate how good the different distance measures are at detecting the genomic mixture of hybrid individuals, we estimated and compared the genetic distance of an allopolyploid individual with its two parents. For this, we simulated an allopolyploid speciation event. The parental species were tetraploids, whereas the allopolyploid species was either octopolyploid with four gene copies coming from each parent or hexaploid with four copies coming from one parent and two from the other. This allowed us to test two ratios of parental genome contribution in the hybrid. Coalescent simulations were performed using multilabelled species trees (Jones, Sagitov & Oxelman 2013 ). This assumes that gene copies inherited from one parent are evolving independently from the gene copies inherited from the other parent in the allopolyploid, which is in accordance with a cytological definition of allopolyploidy. Consequently, the two parental copies in the allopolyploid can be simulated using two independent lineages for the allopolyploid species (Jones, Sagitov & Oxelman 2013 ).

Gene sequences of 1000 bp were simulated with a mutation rate of on a population/species tree as described previously with a population size of = 5000 genes copies (θ = 0·001). The divergence time between the parental species was fixed at 30 000 generations (ז ), or τ = 0·003. Three different scenarios were investigated for the timing of the allopolyploid event: τ = 0 (in which case it is a first generation hybrid between the two parental species), τ = 0·001 or τ = 0·002. To investigate the hybrid mixture of the allopolyploid individual, we estimated a hybrid index that indicates the relative distance of the hybrid from its two parents:

איפה א ו ב are the two parents and איקס the hybrid, and where is the genetic distance between species א and the hybrid. The hybrid index (אני ) is bounded between 0 and 1 and an index of 0·5 indicates that the hybrid is equally distant to both parents. Cases where both ו were equal to zero were given אני = 0·5. All simulations were repeated 2000 times and each replicate consisted of one simulated DNA marker.

Effect of the Number of Markers on Precision

We also estimated the impact of gene number on precision in the two previous simulation settings. For the precision of the genetic distance estimate, we used the simulations with θ = 0·001 and divergence time of τ = 0·012. For the hybrid index, we used the framework of the octopolyploid speciation event at τ = 0·001. In both cases, we evaluated the statistics (distance or hybrid index) estimated from 1, 2, 5, 10, 20 and 40 unlinked markers (taking the mean of all markers). Distances were estimated 500 times for each scenario, and standard deviations among estimates were computed and plotted to investigate the decrease in standard deviation (i.e. increase in precision) with the number of markers for each method.

Theoretical Considerations

Before comparing the different distance methods, it is relevant to note the similarities between the SNP-based methods proposed here and the previously published methods based on whole marker sequences. For example, mrca is the same as min applied to a single nucleotide. As such, it is interesting to compare the performance of this pair of methods in the simulations. Moreover, the genpofad distance is equivalent to the pofad algorithm of Joly & Bruneau ( 2006 ) when applied to a single nucleotide in diploid individuals. For a locus evolving under an infinite site mutation model without recombination, the genpofad distance should give the same distance as pofad when extended to the whole locus. However, genpofad has the advantage that it can be applied to individuals of any ploidy level, whereas pofad is limited to diploid individuals.


Genetic distance

Genetic distance is a measure of the genetic divergence between species or between populations within a species, whether the distance measures time from common ancestor or degree of differentiation. [2] Populations with many similar alleles have small genetic distances. This indicates that they are closely related and have a recent common ancestor.

Genetic distance is useful for reconstructing the history of populations, such as the multiple human expansions out of Africa. [3] It is also used for understanding the origin of biodiversity. For example, the genetic distances between different breeds of domesticated animals are often investigated in order to determine which breeds should be protected to maintain genetic diversity. [4]

In the genome of an organism, each gene is located at a specific place called the locus for that gene. Allelic variations at these loci cause phenotypic variation within species (e.g. hair colour, eye colour). However, most alleles do not have an observable impact on the phenotype. Within a population new alleles generated by mutation either die out or spread throughout the population. When a population is split into different isolated populations (by either geographical or ecological factors), mutations that occur after the split will be present only in the isolated population. Random fluctuation of allele frequencies also produces genetic differentiation between populations. This process is known as genetic drift. By examining the differences between allele frequencies between the populations and computing genetic distance, we can estimate how long ago the two populations were separated. [5]

Although it is simple to define genetic distance as a measure of genetic divergence, there are several different statistical measures that have been proposed. This has happened because different authors considered different evolutionary models. The most commonly used are Nei's genetic distance, [5] Cavalli-Sforza and Edwards measure, [6] and Reynolds, Weir and Cockerham's genetic distance, [7] listed below.

Nei's standard genetic distance

In 1972, Masatoshi Nei published what came to be known as Nei's standard genetic distance. This distance has the nice property that if the rate of genetic change (amino acid substitution) is constant per year or generation then Nei's standard genetic distance (ד) increases in proportion to divergence time. This measure assumes that genetic differences are caused by mutation and genetic drift. [5]

Nei's standard distance can then be written as [5]

Cavalli-Sforza chord distance

In 1967 Luigi Luca Cavalli-Sforza and A. W. F. Edwards published this measure. It assumes that genetic differences arise due to genetic drift only. One major advantage of this measure is that the populations are represented in a hypersphere, the scale of which is one unit per gene substitution. The chord distance in the hyperdimensional sphere is given by [2] [6]

Reynolds, Weir, and Cockerham's genetic distance

In 1983, this measure was published by John Reynolds, Bruce Weir and C. Clark Cockerham. This measure assumes that genetic differentiation occurs only by genetic drift without mutations. It estimates the coancestry coefficient Θ which provides a measure of the genetic divergence by: [7]

Other measures

Many other measures of genetic distance have been proposed with varying success.

Nei's דא distance 1983

This distance assumes that genetic differences arise due to mutation and genetic drift, but this distance measure is known to give more reliable population trees than other distances particularly for microsatellite DNA data. [9] [10]

Euclidean distance

Nei's minimum genetic distance 1973

This measure assumes that genetic differences arise due to mutation and genetic drift. [13]

Roger's distance 1972

A commonly used measure of genetic distance is the fixation index (Fרחוב) which varies between 0 and 1. A value of 0 indicates that two populations are genetically identical (minimal or no genetic diversity between the two populations) whereas a value of 1 indicates that two populations are genetically different (maximum genetic diversity between the two populations). No mutation is assumed. Large populations between which there is much migration, for example, tend to be little differentiated whereas small populations between which there is little migration tend to be greatly differentiated. ורחוב is a convenient measure of this differentiation, and as a result Fרחוב and related statistics are among the most widely used descriptive statistics in population and evolutionary genetics. But Fרחוב is more than a descriptive statistic and measure of genetic differentiation. ורחוב is directly related to the Variance in allele frequency among populations and conversely to the degree of resemblance among individuals within populations. If Fרחוב is small, it means that allele frequencies within each population are very similar if it is large, it means that allele frequencies are very different.


2 תשובות 2

First, it is important to note that all the probabilities provided in these charts are estimations. Different formulas have been proposed and used to give us an idea of what a relationship might be based on a given genetic distance, but they are nothing more than estimates.

Fundamental to these charts is the concept of Time to Most Recent Common Ancestor (TMRCA). This refers to the likely number of generations within which two individuals are related, based on their genetic distance. Genetic distance, in simple terms, is the number of alleles at which two individuals differ. For example, matches at 111/111 markers have a genetic distance of 0, while matches at 21/25 have a genetic distance of 4. These calculations can be performed at various levels of confidence. For example, at 90% confidence, we can be conclude that for a given genetic distance and number of markers, we can be 90% confident that the relationship is within איקס generations.

The calculations are complicated. A glance at Walsh's paper titled Estimating the Time to the Most Recent Common Ancestor for the Y chromosome or Mitochondrial DNA for a Pair of Individuals may be enough to convince you that you don't really want to understand exactly how these numbers are calculated. Nordtvedt proposes an even more sophisticated method in More Realistic TMRCA Calculations. The bottom line is you don't want to be doing these calculations yourself.

That's where online calculator come in handy. There are a variety of tools available to calculate TMRCA for you. I like to use J. D. McDonald's TMRCA Calculator, but there are many others listed on the ISOGG website.

The reason why you may have been unable to find any chart with all the data is because it quickly gets complex and confusing to include everything on one page. You can use the TMRCA calculators to make your own charts, and I have included an example below.

To generate this, I used McDonald's calculator to obtain the data, then organized it in Microsoft Excel. You will note it is for TMRCA at 90% confidence. The TMRCA numbers would differ for other levels of confidence, but the trend is the same. Note that McDonald's calculator uses Walsh's formula for standard infinite alleles, which is why the numbers may differ from those given on the Family Tree DNA charts (these numbers tend to be more conservative estimates than FTDNA). To be clear how to read the chart, say you took a 67-marker test and matched with someone at 64/67 markers, then you would look at the 67-marker row, go across to a genetic distance of 3 (because 67-64=3), and could conclude with 90% confidence that you were related within the last 17 generations.


אזורי הנושא של ASJC Scopus

  • APA
  • תֶקֶן
  • הרווארד
  • ונקובר
  • מְחַבֵּר
  • BIBTEX
  • RIS

In: Crop Science , Vol. 37, No. 4, 01.01.1997, p. 1317-1325.

Research output : Contribution to journal › Article › peer-review

T1 - Relationship between genetic distance among parents and genetic variance in populations of soybean

N2 - A major goal of soybean [Glycine max (L.) Merr.] breeding is the development and identification of high yielding transgressive segregants. Populations that have greater genetic variation should, on average, have more transgressive segregants than populations with lesser variance. The goal of this research was to study whether the genetic distances between parents of crosses were predictive of which crosses have the greatest genetic variance for yield and other agronomic traits. Genetic variance for seed yield, plant height and maturity date was estimated for three sets of populations in field tests. The first set included eight populations evaluated in 1989 and 1990, the second set included 21 populations evaluated in 1993 and a subset of 13 populations evaluated in 1994, and the third set included 24 populations evaluated in 1994 and a subset of 10 populations evaluated in 1995. The parents of the crosses were evaluated with RFLP markers to estimate RFLP distances (RFD) and for coefficient of parentage (CP) which was subtracted from one to measure genealogical distances (GD). Both GD and RFD were significantly (P < 0.05) correlated with genetic variance for plant height for the first set. There were no significant correlations between either genetic distance estimator and genetic variance for any trait in the second set. In the third set, GD was significantly correlated with maturity and plant height and RFD was significantly correlated with maturity. Genetic variance for yield was adjusted for maturity with covariance analysis. These adjustments reduced the estimates of yield variance and mostly reduced the correlations between yield variance and genetic distance estimates. To further evaluate the predictive ability of GD and RFD, the populations in each set were subdivided into two groups, one with parents that had the greatest genetic distance and the other with the least distance based on GD or RFD. The average genetic variance for yield of populations in the more distant group was greater than for the less distant group for the first and third set. These differences were significant for the third set in both years for RFD. These results indicate that although genetic distance can not accurately predict genetic variance of individual crosses, it can on average be useful to identify groups of crosses that will produce populations with greater genetic variance.

AB - A major goal of soybean [Glycine max (L.) Merr.] breeding is the development and identification of high yielding transgressive segregants. Populations that have greater genetic variation should, on average, have more transgressive segregants than populations with lesser variance. The goal of this research was to study whether the genetic distances between parents of crosses were predictive of which crosses have the greatest genetic variance for yield and other agronomic traits. Genetic variance for seed yield, plant height and maturity date was estimated for three sets of populations in field tests. The first set included eight populations evaluated in 1989 and 1990, the second set included 21 populations evaluated in 1993 and a subset of 13 populations evaluated in 1994, and the third set included 24 populations evaluated in 1994 and a subset of 10 populations evaluated in 1995. The parents of the crosses were evaluated with RFLP markers to estimate RFLP distances (RFD) and for coefficient of parentage (CP) which was subtracted from one to measure genealogical distances (GD). Both GD and RFD were significantly (P < 0.05) correlated with genetic variance for plant height for the first set. There were no significant correlations between either genetic distance estimator and genetic variance for any trait in the second set. In the third set, GD was significantly correlated with maturity and plant height and RFD was significantly correlated with maturity. Genetic variance for yield was adjusted for maturity with covariance analysis. These adjustments reduced the estimates of yield variance and mostly reduced the correlations between yield variance and genetic distance estimates. To further evaluate the predictive ability of GD and RFD, the populations in each set were subdivided into two groups, one with parents that had the greatest genetic distance and the other with the least distance based on GD or RFD. The average genetic variance for yield of populations in the more distant group was greater than for the less distant group for the first and third set. These differences were significant for the third set in both years for RFD. These results indicate that although genetic distance can not accurately predict genetic variance of individual crosses, it can on average be useful to identify groups of crosses that will produce populations with greater genetic variance.


How do I measure genetic distance? - ביולוגיה

ביקשת תרגום מכונה של תוכן נבחר ממאגרי המידע שלנו. פונקציונליות זו ניתנת אך ורק לנוחיותך ואינה נועדה בשום אופן להחליף תרגום אנושי. לא BioOne וגם הבעלים והמוציאים לאור של התוכן לא יוצרים, והם מתנערים במפורש מכל מצג או אחריות מפורשים או משתמעים מכל סוג שהוא, לרבות, ללא הגבלה, מצגים ואחריות באשר לפונקציונאליות של תכונת התרגום או דיוק או שלמותה של את התרגומים.

תרגומים אינם נשמרים במערכת שלנו. השימוש שלך בתכונה זו ובתרגומים כפוף לכל מגבלות השימוש הכלולות בתנאי השימוש באתר BioOne.

Comparison of Genetic Distance Measures Using Human SNP Genotype Data

Ondrej Libiger, 1,2 Caroline M. Nievergelt, 3 Nicholas J. Schork 1

1 Scripps Translational Science Institute, Scripps Health, and Scripps Research Institute, La Jolla, CA.
2 Lekarska Fakulta v Hradci Kralove, Charles University, Czech Republic.
3 Department of Psychiatry, University of California at San Diego, La Jolla, CA 92037.

כולל PDF & HTML, כאשר זמין

מאמר זה זמין רק ל מנויים.
הוא אינו זמין למכירה פרטנית.

Quantification of the genetic distance between populations is instrumental in many genetic research initiatives, and a large number of formulas for this purpose have been proposed. However, selection of an appropriate measure for assessing genetic distance between real-world human populations that diverged as a result of mechanisms that are not fully known can be a challenging task. We compared results from nine widely used genetic distance measures to high-density whole-genome SNP genotype data obtained on individuals from 51 world populations. Using population trees and generalized analysis of molecular variance, we found that contradictory inferences could be drawn from analyses that used different distance measures. We determined the grouping of the distance measures in terms of similarity and consistency of their values using concordance, consistency, and Procrustes analyses. Overall, the Cavalli-Sforza and Edwards distance measure differed the most from the other measures. Wright's ורחוב for diploid data, the Latter and Reynolds distances, and Nei's minimum distance measures each yielded values that were most consistent with the other eight distance measures in terms of ordering populations based on genetic distance. The Cavalli-Sforza and Edwards distance and Nei's geometric distance were least consistent. Simulation studies showed that the Cavalli-Sforza and Edwards distance is relatively more sensitive in distinguishing genetically similar populations and that the Reynolds genetic distance provides the highest sensitivity for highly divergent populations. Finally, our study suggests that using the Cavalli-Sforza and Edwards distance may provide less power for studies concerning human migration history.

© 2009 Wayne State University Press, Detroit, Michigan 48201-1309

Ondrej Libiger , Caroline M. Nievergelt , and Nicholas J. Schork "Comparison of Genetic Distance Measures Using Human SNP Genotype Data," Human Biology 81(4), 389-406, (1 August 2009). https://doi.org/10.3378/027.081.0401

Received: 23 February 2009 Accepted: 27 April 2009 Published: 1 August 2009


How do I measure genetic distance? - ביולוגיה

It turns out that folks kinda hate their genetic neighbours.

Enrico Spolaore was one of the keynote speakers at the Australasian Public Choice Society Meetings in Melbourne last week. I'd not before seen his work on genetic distance, but it's rather interesting.

Genetic distance measures the number of generations back you have to go before two populations share common ancestors. So if two populations diverged only a very short time ago, like the Danes and the English, their measured genetic distance is short if they diverged a very very long time ago, like the Australian aborigines and the Mbuti Pygmies of Africa, their measured distance is long. While this is related to geographical distance, it's far from perfectly correlated: Canada's Inuit are closer to Tibetans than they are to any of the other Amerindians the English are closer to the northern Indians than they are to the Lapps (Finish) the Mongols are closer to the Japanese than they are to the Chinese the Indians of south east India are closer to the Italians than they are to the Thai people or the South Chinese.

Spoloare and Wacziarg find that this measure of genetic distance predicts whether two populations will go to war, after controlling for the usual set of determinants of conflict like geographical proximity, shared borders, income differences, religion, language, and so on. All else equal, the more two populations are genetically proximate, the more likely they are to go to war and the less likely they are to vote together at the UN. If current patterns of war have affected measured genetic distance, then causality may be wrong, but they use genetic distance as of year 1500 as an instrument.

I'd worried that results might be drawn from a few places that have been strategically important going back well before 1500. For example, if the bridge from Africa to Asia Minor via Sinai and Israel has been strategically important for thousands of years and if similar populations have lived around there for a long time, then the correlation of genetic distance and conflict could have things the wrong way round: frequent conflicts in strategic regions bring genetic mixing, and if the regions' strategic importance continues from well prior to 1500 to present, then it wouldn't be that folks want to fight with their genetic neighbours, but folks who fight a lot become genetic neighbours. Controlling just for having a common border or just for geographical distance wouldn't quite cut it. But they find that the effect also holds for country pairs that do not share a border.

Why might we fight more with our nearer than our more distant cousins? Spolaore suggests that genetic closeness makes it more likely that we'd be in conflict over rivalrous resources. I wonder whether we couldn't imagine a pleistocene explanation: if there's a fertility advantage to outbreeding but not too far (the sweetspot between inbreeding depression and outbreeding depression), then our ancestors 90,000 generations back on the Savannah who raided more closely related neighbours would have had a slight advantage over those who raided groups too genetically distant. Run the mechanism for 90,000 generations, and you've a population that's keyed to want to raid folks who are more like them.

In the May QJE, Spolaore and Wacziarg found that genetic distance from the United States explains cross country income differences after correcting for geographical distance, climate, transportation costs, and measures of social distance (historical, religious, linguistic). Again, they argue that genetic distance may be the best measure of "slowly changing genealogically transmitted characteristics, including habits and customs" - the bits of culture we can't adequately otherwise measure. That's certainly possible, and cuts against my evolutionary biology explanation above, mostly because it's hard to come up with an ev bio explanation of why genetic distance from the US would correlate with income differences. The best explanation I'd have would be that it's proxying for differences in average IQ: also somewhat genetic, but at some of the more depressed ends of the scale almost certainly highly environmentally influenced). But that would be a bit of a wash: there are genetically distant places above the US (Hong Kong) and far below the US (Equatorial Guinea) in reported average national IQ. Spolaore's culture explanation seems the more plausible.

Spolaore gave one of the best plenary addresses I've ever seen. If you get a chance to see him give a talk, go.