מֵידָע

כמה רקמות נדרשות לביצוע ניתוח RNA-seq על אורגניזם אחד?


כמה רקמות יידרשו לביצוע ניתוח RNA-seq על אורגניזם אחד? ליתר דיוק, אם אדם רוצה ניתוח RNA-seq של ביטוי לאיבר בודד, כמה רקמות הם יצטרכו לתרום?


ליבת ה- DNA שלנו רוצה 1.5 ug של RNA. אני מוצא שאני יכול להשיג את הסכום הזה מתכשיר טריזול סטנדרטי מכ -1 מ"ג רקמה פרחונית של ארבידופסיס. בדרך כלל אני מכפיל או משולש את מה שאני קוטף כדי להסביר את השינוי האקראי בתשואה.


http://healthcare.utah.edu/huntsmancancerinstitute/research/shared-resources/center-managed/high-throughput-genomics-site/services/illumina-sequencing/rna-sequencing.php

ערכת ההכנה לדוגמה ל- Illumina TruSeq RNA מדגם v2 עם בחירת oligo (dT) ממליצה על קלט של 100 עד 1000 ng של ה- RNA הכולל בנפח של 30 ul לבניית ספרייה.

ערכת ה- Total Epicenter RNA-Seq של Epicenter (Cat Epicenter# TSRNA1296) מיועדת לקלט של 1-5 ng של RNA הכולל בנפח של 12 ul לספריית רצף RNA.

האם תקבל תמונה מלאה של איבר שלם מפרוסה כה קטנה היא שאלה אחרת לגמרי. למוח יש אזורים שונים, עם ביטוי גנים שונה.


מדריך מעשי לרצף RNA חד-תאיים למחקר ביו-רפואי ויישומים קליניים

רצף RNA (RNA-seq) היא גישה גנומית לאיתור וניתוח כמותי של מולקולות RNA שליח בדגימה ביולוגית ושימושית לחקר תגובות סלולריות. RNA-seq הניבה גילוי וחדשנות רבים ברפואה בשנים האחרונות. מסיבות מעשיות, הטכניקה מתבצעת בדרך כלל על דגימות הכוללות אלפי עד מיליוני תאים. עם זאת, הדבר הפריע להערכה ישירה של היחידה הבסיסית של הביולוגיה - התא. מאז פורסם המחקר הראשון בתאי RNA של רצף RNA (scRNA-seq) בשנת 2009, נערכו הרבה יותר, בעיקר על ידי מעבדות מומחות בעלות כישורים ייחודיים בגנומיקה חד-תאית במעבדה רטובה, ביואינפורמטיקה וחישוב. עם זאת, עם הזמינות המסחרית ההולכת וגדלה של פלטפורמות scRNA-seq, וההבשלה המתמשכת המהירה של גישות ביואינפורמטיות, הושגה נקודה שבה כל חוקר או קלינאי ביו-רפואי יכול להשתמש ב- scRNA-seq כדי לגלות תגליות מרגשות. בסקירה זו אנו מציגים מדריך מעשי שיעזור לחוקרים לתכנן את מחקרי scRNA-seq הראשונים שלהם, כולל מידע היכרות על חומרה ניסיונית, בחירת פרוטוקול, בקרת איכות, ניתוח נתונים ופרשנות ביולוגית.


כמה רקמות נדרשות לביצוע ניתוח RNA-seq על אורגניזם אחד? - ביולוגיה

סקירה כללית של ניתוח נתוני RNA-Seq

RNA-Seq חוללה מהפכה באופן בו אנו חוקרים נתוני ביטוי גנים. ניתוח נתונים פשוט ברמת הגן או מתקדם יותר ברמת התעתיק עם פוטנציאל לזהות אירועי שחבור חלופיים נמצאים כעת בהישג יד. האם אתה מעוניין ב- RNA ארוך שאינו מקודד? תמלילי היתוך? האורגניזם שמעניין אותך הוא אף אחד מהחשודים הרגילים? האם אתה רוצה להשתמש באוסף הדגימות המקובלות בפורמלין, המשובצות בפרפין (FFPE)? הכל אפשרי ואיכות התוצאות מדהימה. עם זאת, עם אפשרויות חדשות מגיעות מכשולים חדשים ויש לקבל הרבה החלטות על מנת להשיג את התוצאה הטובה ביותר האפשרית. ואפילו התוצאה הטובה ביותר אולי לא תהיה הנכונה. אנו חושבים שניתוח הנתונים תמיד צריך להיות מותאם גם למטרה הראשונית של החוקר. אנו מבינים עיצובים ניסיוניים מסובכים ונתאים את זרימת העבודה שלנו לניתוח הנתונים בהתאם למטרה שלך. אין צינורות סטנדרטיים. מוּבטָח.

אין תוצאה חשובה, אם לא מוצגת בצורה הטובה ביותר. אנו מכוונים לדמויות באיכות גבוהה. אנו מספקים תמונות ברזולוציה גבוהה ובנוסף גרסאות pdf של הגרפיקה שלך, המאפשרות לך לתפעל צבעים, טקסט ואפשרויות רבות אחרות. אנא ראה סרטון לדוגמה כאן.

במידה ותרצה להתקשר לביולוגיה שלו לניתוח פרויקט ה- RNA-Seq שלך, נחלק את כל התהליך ל -4 שלבים, כאשר אתה בוחר לאיזו רמת ניתוח אתה צריך:

עיצוב אקספרמנטלי

ייעוץ בעיצוב הניסוי ובהליך הטכני של הניסוי. לפעמים שיחת טלפון אחת יכולה לעזור מאוד.

ניתוח נתונים ברמה נמוכה

הערכת איכות נתונים, מניפולציה בקריאה (זמירה, סינון), יישור וכימות ונורמליזציה

סטטיסטיקה וויזואליזציות

סטטיסטיקה והדמיה של גנים, תמלילים או איזופורמים המבוטאים בדיפרנציאל.

פרשנות ואינטגרציה

ניתוח נוסף, כמו העשרת ג'ין-אונטולגי, מעורבות במסלול או שילוב עם תוצאות ממבחנים אחרים.

אנו מנתחים נתוני RNA-Seq של כל ראשי הדור הבא של ראש העיר מאילומינה או יון-טורנט. אנו יכולים להתחיל מקבצים בקבצי FASTA, FASTQ, קבצי BAM לא מיושרים או בפורמט SRA.
אנא גלול למטה למידע נוסף אודות השלבים היחידים של זרימת העבודה שלנו ב- RNA-Seq. אנא פנה אלינו כאן, למקרה שיש לך שאלה לגבי השירות שלנו.

בקרת איכות והכנת קריאה

אין זה סוד כי בקרת האיכות של נתוני הגלם RNA-Seq חיונית על מנת לחשוף תוצאה טובה. זה אינו שונה מנתוני assay ביולוגיים אחרים, אך ב- RNA-Seq יש לנו את האפשרות לעצב את הנתונים הגולמיים על פי פרמטרים איכותיים. דוגמה אחת לעיצוב כזה תהיה חיתוך קצוות קריאה בהתבסס על ציוני האיכות של הבסיסים. אנו אכן משתמשים בכלים סטנדרטיים לבקרת איכות כמו FASTQC, אולם אנו מוסיפים הערכות איכות נוספות בכל פעם שצריך. לדוגמה אנו בודקים גם כברירת מחדל את האפשרות של פירוק RNA עבור כל דגימה. ראינו, כי שלב זה חשוב במיוחד בעת עבודה עם דגימות מרקמה מקובעת פורמלין, מוטבעת פרפין (FFPE). כמו כן, אנו בודקים אם RNA ריבוזומלי מזהם בדגימות שלך ומוציא את הקריאות האלה מהניתוח כדי לא להפריע להליכי נורמליזציה מאוחרים יותר. עבור דגימות RNA-Seq המגיעות מתרבית תאים אנו כוללים גם מסך נגד מזהמים בולטים כמו שמרים, חיידקים (תוך ותאי) וירוסים וזיהום צולב עם מינים אחרים (במהלך הכנת הדגימה). ולמען הבטחון אנו למעשה מבצעים בדיקת זיהום זו תמיד, ללא קשר למוצא המדגם.
תקבל דו"ח pdf המכיל את כל עלילות האיכות החיוניות לנתונים גולמיים ואיכותיים כאחד. נדון אתכם בכל שלבי המניפולציה וכמובן שנתעד כל צעד שאנו מבצעים.

קרא יישור

יישור קריאות RNA-Seq לגנום הוא התהליך התובעני ביותר לחישוב בכל תהליך העבודה. ושוב מסובך, שכן יש לקבל לא מעט החלטות. איזה Aligner? במה עלי להשתמש בתור אסמכתא? הגנום כולו או רק התמלול? מהם הפרמטרים המותאמים לאלגוריתם היישור הנבחר? אין ספק שיש לנו תשובות לשאלות אלו ויכולים לתת לך תוצאות ראשונות של ניסוי ה- RNA-Seq בגודל בינוני שלך (16 דגימות, 200 GB נתונים גולמיים) ביום עבודה אחד בלבד.
הנה מה שאנחנו עושים. לאחר עיבוד מוקדם של הקריאות אנו מיישרים קו לכל הגנום באמצעות יישור RNA-Seq האהוב עלינו, כוכב, המראה ספציפיות ורגישות גבוהה. וזה מהיר. במקביל אנו מיישרים גם דוגמאות משנה של הנתונים שלך באמצעות קבוצה של יישרים אחרים המודעים לאתר ספליס (למשל GSNAP ו- Tophat2). במקרה יישור הכוכבים אינו תואם את הפרמטרים שלנו ליישור מוצלח אנו משווים עם ערכות היישור האחרות, בהתבסס על פרמטרים שנבחרו וגם על ידי בדיקת הקריאות המיושרות מבחינה ויזואלית, על מנת לקבל החלטה לגבי אסטרטגיית היישור הטובה ביותר.
התוצאה של שלב זה ממוינים וקובצי BAM, אשר ניתן להשתמש בהם לשלב הבא, לכמת או להמחיש בכל דפדפן גנום.

כימות ונורמליזציה

כעת, מכיוון שאנו כעת מיקום הקריאות על הגנום השלב הבא הוא לכמת את הקריאות לגנים ותמלילים ידועים. שוב, יש שפע של כלים זמינים, חלקם טובים יותר מאחרים. יש לנו ניסיון טוב מאוד עם סלמון, יורשו של SAILFISH, שהוא כרגע הכלי המועדף עלינו, להשיג ערכי ביטוי גנים/תמלילים יציבים. החלטה נוספת לקבל כאן היא, באיזה מאגר נתונים של גנים/תמלילים ידועים יש להשתמש כאן. RefSeq, להיות שמרני מכיל הרבה פחות איזופורמים מאשר למשל ENSEMBL. ולשניהם יש יתרונות, עליהם נדון איתך על מנת להתאים את התוצאות למטרה שלך.
כשיש לנו את הטבלה שלנו עם ערכי ביטוי עלינו לנרמל את הנתונים. עדיין אין הסכם ברור, איזו אסטרטגיית נורמליזציה פועלת בצורה הטובה ביותר עם נתוני רצף הדור הבא, אם כי הוכח כי לחלקם יש חסרונות ברורים (למשל נורמליזציה של rpkm). אנו מיישמים “ מנרמל ” “כדי ליישם מבחר של הליכי נורמליזציה תקפים ולבדוק איזה מהם עובד הכי טוב עם מערך הנתונים בהישג יד. קריטריון אחד מרכזי כאן הוא, כיצד אלגוריתם הנורמליזציה מתמודד עם גזירה מקומית וכללית מהממוצע. בנוסף אנו מיישמים נתונים סטטיסטיים על כל מערכות הנורמליזציה ומאמתים את הפלט באמצעות רגישות, שיעור חיובי שווא ומשמעות ביולוגית.

סטטיסטיקה ועוד

כמו כן אנו בוחנים הליכי נורמליזציה שונים במערכות הנתונים השונות, הניסיון שלנו מאוד מדגיש לבחור בקפידה את המבחן הסטטיסטי המתאים למערך הנתונים שלך. כל מערך נתונים מתנהג אחרת, כאשר מספר הדגימות לכל תנאי הוא פרמטר מכריע אחד. אנו מיישמים את המבחן הסטטיסטי של ראש העיר הזמין לנתוני RNA-Seq ובודקים היטב את הפלט של כל בדיקה, בהתאמה. ליתר דיוק, אנו מקבצים את כל הגנים/תמלול הספציפיים לחפיפה זו או אחרת או כל חפיפה בין כל אחד מהמבחנים הסטטיסטיים. פרסמנו דוגמה למערך נתונים אחד בבלוג שלנו. על ידי חקירה מדוקדקת של התפוקה של כל בדיקה סטטיסטית גם לגבי משמעות ביולוגית, אנו בטוחים לבחור את הבדיקה המתאימה לנתונים שלך. ייתכן שמדובר בבדיקה סטטיסטית ספציפית או במטא-סט המבוסס על שתיים או יותר בדיקות.
מלבד אשכול היררכי, אנו מציעים מבחר עצום של ויזואליזציות חקר העוזרות לנו לפרש את התוצאות. דוגמאות לכך יהיו חלקות x-y (פיזור) קלאסיות של אמצעי התנאים שלך, מקבץ SOM, אשכולות K-K, חלקות הר געש, ניתוח רכיבים עיקריים (PCA), עלילות תיבה או היסטוגרמות. אנו מיישמים לא רק העשרה ג'ין-אונטולוגיה (GO) והעשרת מסלול על קבוצות הגנים/תמלילים משמעותיים. אנו עושים שימוש גם בקבוצות גנים מותאמות אישית, באתרי יעד של גורם תמלול או ברצפי מטרה mi-RNA. זה יכול לחשוף גורמי שעתוק או mi-RNAs הפועלים כרגולטורים בניסוי. בנוסף אנו מבצעים בדיקה סטטיסטית על שיעורי GO ומערכות Pathway עבור כל הגנים/תמלילי הביטוי ללא קשר למשמעות. זה מאפשר לנו לחשוף מסלולים אשר בדרך כלל ממוקדים על ידי הליך הניסוי, אך אולי לרמה שתתגלה על ידי ניתוח העשרה פשוט.
ברמת הגן היחיד, אנו מציעים בארופלוטס, נקודות נקודה, חלקות אינטראקציה וגרפי קווים. הדבר נעשה תמיד ברמת המדגם היחיד, אך גם באמצעי התנאים. אנו בוחרים בקפידה את ההערה האחרונה מתוך משאבים שונים שנבחרו. לדוגמא דוחות pdf של גן יחיד יכללו תמיד את סיכום RefSeq המקיף של הגן. כל זאת, כדי לעזור לך לקבל רעיונות ותובנה ביולוגית לניסוי שלך בקלות.
אנו גם יכולים לבצע ניתוח אינטגרציה עם תוצאות ה- RNA-Seq שלך. ייתכן שיש לך למשל נתוני miRNA-Seq או Chip-Seq שאתה רוצה לשים במקביל לנתוני הביטוי שלך. אנו מחברים את הסטים. האם ביצעת את הניסוי כבר באמצעות מיקרו מערכים? אנו מומחים בהשוואת ערכות נתונים מיקרו-מערך ו- RNA-Seq.
עדיין אין לך נתוני RNA-Seq, אבל מישהו אחר פרסם מערך נתונים שמעניין אותך? אתה רוצה לדעת אם התוצאות תקפות? כבר ניתחת את הנתונים שלך, אבל אתה רוצה חוות דעת שנייה? כל השאלות שאתה יכול לפנות אלינו לגבי. אנו בטוחים שנוכל לספק לך תשובות.

שחבור חלופי

  • >

גילוים של אירועי שחבור חלופיים אמיתיים הוא מסובך, שכן הוא מועד לדווח על אירועים חיוביים כוזבים. חשוב מאוד שלמערכת הנתונים שלך תהיה עומק קריאה מספיק על מנת לקבל תוצאה סבירה. באופן עקרוני ישנן שתי גישות שונות לאיתור דפוסי שחבור חלופיים: מבוסס על ביטוי תמלול או ברמת אקסון. אנו מעדיפים גילוי שחבור אלטרנטיבי ברמת התעתיק, מכיוון שאנו סבורים כי הפלט קל יותר לפרשנות על ידי החוקר. לאחר כימות איזופורם אנו מיישמים דוגמנות סטטיסטיות של ANOVA על מנת לקבל ערך p להסתברות של שחבור חלופי. לאחר התאמת ערכי p לבדיקות מרובות, אנו אוצרים באופן ידני את כל הגנים המשמעותיים כדי להיות בטוחים שאירועי חיבור חלופיים חיוביים. תקבל דו"ח pdf הכולל את כל הגרפים הדרושים לפרשנות תבנית השחול שהתגלתה הן בתמלול והן ברמת אקסון הן ברמת מדגם יחיד (כדי להמחיש את הסטייה) והן ברמת אמצעי התנאים שלך. כמו כן אנו כוללים עלילות גנומיות ממוקדות גנים כולל מודל התמלול והקריאות הגולמיות לבדיקה חזותית. ניתן לראות חלקות דוגמה בחלון המחוון למעלה.


פיתוח מבחני RNA-Seq בתפזורת ותא בודד

הפיתוח הראשוני של RNA-Seq הועיל מאוד לחקר RNA קטנים/לא מקודדים. מיקרו מערכים לא התאימו טוב ל- RNA קטן שאינו מקודד מכיוון שרצפי אוליגנונוקליאוטידים על מיקרו מערכים התבססו על רצפי גנום קיימים, במיוחד גנים מקודדים. כמו כן, RNAs קטנים היו קצרים מכדי להיתפס על שבב. אחד המחקרים הראשונים שהשתמשו בפירוסקוונציה של RNA הובל על ידי ברטל DP. ב- MIT, באמצעות C. elegans דגימות. מחקר זה, אשר רצף

400K RNA קטנים, אפשרו גילוי של 18 מיקרו-רנ"א חדשים, אלפי siRNA, ומחלקה שלישית של RNA קטנים, הנקראים 21U-RNA. אלה 21U-RNAs הם 21 נוקלאוטידים באורך עם אורדין 5 & rsquo וממופים לשני אזורים שונים של כרומוזום IV בין גנים מקודדים או בתוך אינטרונים.

MiRnome נחקר עוד על ידי אותה קבוצה בתסיסנית על ידי שילוב תחזיות חישוביות של microRNAs חדשים עם RNA-Seq של RNAs קטנים. באמצעות pyrosequencing, כמעט 50% מ- miRNA החזויים זוהו וגילו 59 גנים חדשים. אותם נתוני רצף הובילו לפרסום נוסף שבו רובי ג'יי. ואח '. זיהה מסלול חלופי לביוגנזה של miRNA. מתברר שכמה miRNAs אינטרוניים מסוגלים לעקוף את מחשוף DROSHA ומתורגמים כ- pre-miR הנקראים & ldquomirtrons. & Rdquo ארבעה עשר מירטרונים התגלו בתסיסנית וארבעה ב- C. elegans. במקביל, קבוצת Lai EC & rsquos ממרכז הסרטן ממוריאל סלואן-קטרינג בניו יורק אישרה את מסלול הביוגנזה החלופי של miR בפרסום אחר.

ניסויים בקנה מידה גדול ב- RNA-Seq לא רק הביאו הרבה ממצאים חדשים לתחום ה- RNA הלא מקודד אלא גם ל transcriptomics על ידי שיפור ביאורי הגנום. אלה גילו כי אזורי הגנום המתועתלים רחבים מהצפוי בעבר. עם זאת, בדומה לניסויים בתפזורת אחרים, ל- RNA-Seq בתפזורת יכולות להיות כמה מגבלות לדגימות הטרוגניות, כולל איברים, ביופסיות או במהלך תהליכים דינאמיים כגון פיתוח והתמיינות. בשנת 2011, צוות Linnarsson S. & lsquos פיתח פרוטוקול לברקוד של תאים בודדים במהלך שלב התמלול ההפוך. תאים בודדים (תאי ES R1 ו- MEF) הועמסו בצלחת 96-בארות וסולקו. RNAs תועתלו לאחור ליצירת cDNA. לאחר מכן שימשו אוליגוס עוזר ייחודי לשילוב רצף ספציפי בקצה 3 והסקו של cDNA. למרות הקשיים בזיהוי שחבור חלופי, רמת ביטוי mRNA הייתה דומה לתוצאות qPCR. החוקרים יצרו מפת תאים דו-ממדית, הדגישו דפוסי ביטוי גנים ספציפיים לכל שורת תאים.

כמות חומר המוצא הדרוש ל- RNA-Seq בתפזורת יכולה גם היא להוות בעיה. בשנת 2009, Tang F. et al. פרסם את הפרוטוקול הראשון עבור scRNA-Seq. הם הצליחו לנתח ביטוי mRNA בבלסטומר עכבר אחד. הם זיהו 75% יותר גנים מאשר עם מיקרו מערכים וגילו 1753 צמתים מחוברים. הם עוד ניתחו את ההשפעות של miRNA על ביטוי mRNA על ידי התדלדלות Dicer 1 אוֹ Ago2 גנים בביציות. הם צפו בוויסות של יותר מ 1500 גנים עם 619 גנים משותפים.

שני פרסומים חלוצים אלה הביאו טכנולוגיה חדשה שעדיין נמצאת בפיתוח. בעוד RNA-Seq בתפזורת די פשוט לנתח את התמלול, scRNA-Seq נותן מידע נוסף על הווריאציות של התמליל במהלך תהליכים מתפתחים (בריאים או פתולוגיים).


"אנו רואים ב- RNA-seq תא אחד את הדרך הנכונה לבצע ניתוח ביטוי גנים"

ניתן לנהל כמה יישומי רצף, כגון איתור פולימורפיזמים בודדים של נוקלאוטיד, בעזרת טכנולוגיה קצרה לקריאה. יישומים אחרים, כגון איתור וריאציות מבניות, עשויים לדרוש טכנולוגיה ארוכת קריאה, ויישומים מסוימים, כגון הרכבת הגנום של אורגניזם חדש, עשויים לדרוש גישה משולבת, עם קריאות קצרות המספקות דיוק ותפוקה גבוהה, במידת האפשר, וקריאות ארוכות המתמודדות עם אזורים גנומיים החוזרים על עצמם.

מאת “ אתגרי רצף הדור הבא ” מאת שון סי בייקר ב חדשות הנדסה גנטית

למרות שחברות פלטפורמת הרצף הגדולות השקיעו שנים בהורדת עלות יצירת רצף הגלם, הדבר לא נכון לגבי הכנת הספרייה. הכנה לספרייה לרצף הגנום כולו של האדם, בסביבות 50 $ לדגימה, היא עדיין חלק קטן יחסית מהעלות הכוללת. אך עבור יישומים אחרים, כגון רצף גנום חיידקי או רצף RNA בעומק נמוך (RNA-seq), הוא יכול להוות את רוב העלות.

מספר קבוצות עובדות על פתרונות ביתיים להכנת חליטה ביתית כדי להוריד את העלויות האפקטיביות, אך לא חלו התפתחויות רבות בחזית המסחרית. נקודת אור אחת היא בפיתוח פתרונות רצף חד תאיים, כגון מערכת Chromium ™ מ- 10X Genomics, המשתמשת במערכת מבוססת חרוזים לעיבוד מאות עד אלפי דגימות במקביל.

"אנו רואים ב- RNA-seq תא אחד את הדרך הנכונה לבצע ניתוח ביטוי גנים", מתעקש סרג 'סקסונוב, דוקטורנט, מייסד ומנכ"ל חברת 10X Genomics. "במהלך השנים הקרובות, רוב העולם יעבור לרזולוציה של תא יחיד לניסויים ב- RNA, ואנחנו נרגשים מהפלטפורמה שלנו להוביל את הדרך לשם". עבור פרויקטים גדולים, כגון אלה הנדרשים עבור RNA-seq תא אחד, פתרונות מרובדים מאוד יהיו קריטיים בשמירה על עלות נמוכה למדי.

הדומיננטיות של Illumina בשוק הרצף גרמה לכך שהרוב המכריע של הנתונים שנוצרו עד כה מבוסס על קריאות קצרות. מספר רב של קריאות קצרות הוא התאמה טובה למספר יישומים, כגון זיהוי פולימורפיזם חד-נוקלאוטיד ב- DNA גנומי וספירת תמלילי RNA. עם זאת, קריאות קצרות לבדן אינן מספיקות במספר יישומים, כגון קריאה באזורים שחוזרים על עצמם מאוד בגנום וקביעת מבנים לטווח ארוך.

פלטפורמות לקריאה ארוכה, כגון RSII ו- Sequel מ- Pacific Biosciences ו- MinION מטכנולוגיות אוקספורד ננו-פור, מסוגלות ליצור באופן קבוע קריאות בטווח של 15–20 קילובייס (kb), עם דיווחים על קריאות בודדות של למעלה מ -100 קילוגרם. פלטפורמות כאלה זכו לכבוד של מדענים כמו צ'ארלס גאסר, דוקטור לתפקיד פרופסור לביולוגיה מולקולרית ותאית באוניברסיטת קליפורניה, דייוויס.

"אני מתרשם מההצלחה שאנשים זכו בשימוש בשיטות הקריאה ארוכות להרכבת הגנום דה נובו, במיוחד במכלולים היברידיים בשילוב עם נתוני נאמנות גבוהים יותר לקריאה קצרה", אומר ד"ר גאסר. "שילוב הטכנולוגיות הזה מאפשר לחוקר יחיד עם קבוצה קטנה מאוד ותקציב מינימלי לייצר מכלול שימושי מגנום של אורגניזם חדש."


ניתוח נתוני scRNA-seq מדגימות שלד

אולי השלב הדורש את המאמץ הגדול ביותר בניסוי scRNA-seq אינו בידוד התא או רצף אלא ניתוח נתונים. למרבה המזל, גישות ניתוח scRNA-seq התפתחו לפחות באותה מהירות כמו שיטות הרצף עצמן, והובילו למגוון רחב של אפשרויות, הכוללות בעיקר מספר כלים מאוד נגישים המאפשרים ביולוגים של עצמות ללא הכשרה חישובית קודמת לבצע ניתוח זה בעצמם 43 -45 (טבלה 2). ללא קשר לתוכנה המשמשת, תהליך הניתוח בדרך כלל כולל ארבעה שלבים מרכזיים: גישות לניקיון חפצים טכניים/ניקוי נתונים, הפחתת ממדיות, אשכולות ובחינת פוסט-אשכולות של ביטוי גנים (איור 2). לסיכום כל אחד מאלה לפי הסדר, scRNA-seq כפוף לבלבול אופייני על ידי משתנים שחייבים לטפל בהם בשלבים הראשונים של הניתוח. אלה כוללים השפעות אצווה, התוכן היחסי של ה- RNA המיטוכונדריאלי והריבוזומלי, המספר הכולל של התמלילים שנאספו מכל שווי תא, או שלב מחזור התא של כל תא. לעתים קרובות, ההשפעות של משתנים אלה יכולים להיות גדולים ביחס לשונות הביולוגית של העניין, המחייבות הבנה ובהמשך מתייחסות להשפעתן. השיטות לטיפול אלה כוללות סינון תאים חריגים, ירידה בדגימת אוכלוסיות עם דגימת תעתיק גבוהה יותר לתאים משאר הדגימה, או רגרסיה להסרת חלק האות המונע על ידי משתנים אלה. עם זאת, יש להעריך את ההשפעה של "נסיגה החוצה" של משתנים אלה במדויק ובאופן ידני בניתוח הסופי, שכן חלק מהמובילים הללו עשויים להיות נוכחים בצורה לא שוויונית באשכולות תאים, מה שיוביל לרגרסיה העלולה להסוות את האות הביולוגי האמיתי הקשור לאוכלוסיות אלה. . ראוי להדגיש כי זה וכמעט כל שלב אחר בתהליך הניתוח הזה יהיה כפוף באופן אידיאלי לצבוט איטרטיבי של פרמטרי ניתוח ולצפות האם שינויים אלה עוזרים לשחזר את הביולוגיה הצפויה הקיימת במדגם. בהקשר זה, ניתוח scRNA-seq מושכל באופן אינטנסיבי על ידי הידע של האדם על הביולוגיה הרלוונטית הבסיסית והוא מתנהל בצורה הטובה ביותר על ידי חוקרים בעלי היכרות עמוקה עם הביולוגיה הזו, אם כי תמיכה בליבות מוסדיות וייעוץ ביואינפורמטיקאים יכולה להיות קריטית.

צנרת שָׁנָה שפת תכנות הפחתת ממדיות אִסטרָטֶגִיָה
מִשׁקָף 2014 ר ICA, MST ביטוי דיפרנציאלי
סקובה 2014 מטלאב t-SNE עקומת עקרון
מפל מים 2015 ר PCA, k- פירושו, MST אשכולות תאים
עֶצֶם הַבָּרִיחַ 2016 פִּיתוֹן PCA, מפות דיפוזיה מִכלוֹל
TSCAN 2016 ר PCA אשכולות MST
StemID 2016 ר PCA, ICA אשכולות תאים
קֶלַע 2017 ר כל אשכול מבוסס MST
scTDA 2017 פִּיתוֹן כל (MDS, ICA, t-SNE) ביטוי דיפרנציאלי מבוסס טופולוגיה
Velocyto 2018 R, פייתון PCA אשכולות תאים
מונוקל 3 2019 ר t-SNE או UMAP אשכולות לובין
  • ICA = ניתוח רכיבים עצמאי MST = עץ מתפרש מינימלי t-SNE = t שכנה סטוכסטית מבוזרת הטמעת PCA = ניתוח רכיבים עיקריים MDS = קנה מידה רב ממדי UMAP = קירוב והקרנה אחיד.
  • מספר צינורות ניתוח מתמקדים בהסקת מסלול הבידול של אוכלוסיות הנמצאות בנתוני scRNA-seq, כולל Monocle, 57 SCUBA, 95 Waterfall, 96 Wishbone, 97 TSCAN, 98 Slingshot, 99 scTDA, 100 ו- Monocle 3. 40 Velocyto מתמקדת הסקת פרופילי ביטוי גנים עתידיים של כל תא באמצעות ניתוח של תמלילים לא מחוברים. 56 StemID מתמקד בזיהוי אוכלוסיות חריגות נדירות. 55

יישום של רצף scRNA לפענוח מורכבות ביולוגית. (א, ב) ניתוח תא בודד לוכד פרופיל תעתיק של תאים בודדים ויכול לפענח אוכלוסיות הקיימות בהשעיה של סוגי תאים מעורבים. ניתוח רכיבים עיקריים (PCA) היא שיטה להפחתת מימדיות לינארית וניתן להשתמש בה לזיהוי אשכולות תאים שונים הקיימים באוכלוסיות תאים הטרוגניות (ב). t-SNE (t-הטמעה של שכנה סטוכסטית מופצת) היא שיטת הפחתת ממדים לא לינארית המשמשת בדרך כלל להצגת אשכולות תאים שונים. (ג) עלילת כינור היא עלילת צפיפות שניתן להשתמש בה כדי לקבוע את ביטוי הגן על פני אשכולות תאים שונים. הנקודות מייצגות תאים בודדים. (D – G) סוגים שונים של צינורות ניתוח scRNA יכולים להסיק מחויבות/היררכיה של תאים (ד), מסלול תאים (ה), לפענח דפוסי ביטוי גנים (ו), או התמיינות של תאי גזע (ז). הנקודות מייצגות את המיקום של תאים בודדים במסלול הבידול. scTDA (ניתוח נתונים טופולוגיים חד תאיים) הוא אלגוריתם חישובי מבוסס טופולוגיה שניתן להשתמש בו להסקת ההיררכיה והתמיינות התא. תאים לא מסונכרנים מייצגים נקודות זמן מיידיות שונות לאורך מסלולי תאים. scTDA פותר אסינכרוניה ושוחזר מסלול תנועה דינאמי רציף (ד). מונוקל הוא אלגוריתם ללא פיקוח המסיק מסלולי בידול סלולאריים המתרחשים לאורך כל הזמן בפסונדוטות פונדקאיות (ה). [ניתן לצפות בדמות הצבעים באתר wileyonlinelibrary.com]

לאחר מכן, רוב פלטפורמות האנליזה עוסקות בהפחתת מימדים ואשכולות כלשהם. הפחתת המימדיות לובשת לעתים קרובות את ניתוח רכיבי העקרון (PCA), אשר מפשט את השונות המורכבת הקיימת במדגם על ידי זיהוי תמלילי covariant וקיבוץ אלה יחד במרכיבים עיקריים (PCs). לדוגמה, אוסטאוקאלצין (BGLAP) ותמלילים אחרים המתבטאים מאוד באוסטאובלסטים, כגון COL1A1 וסיאלופרוטאין בעצמות (IBSP) ואחרים, עשויים להיות מקובצים יחד, קבוצת גנים הנקראים metagenes, למרכיב עיקרי המשקף את זהות האוסטאובלסט. לעתים קרובות, זה מלמד לבחון ידנית את הגנים הכוללים כל אחד מהמחשבים האישיים כדי לראות איזה היבט של הביולוגיה המזנכימלית נלכד. בהתאם לשיטת הכנת הדגימה, מחשבים מוקדמים צפויים להישלט על ידי חתימת תאי אריתרואיד או לויקוציטים בהתחשב בהבדלים הרחבים שלהם בביטוי הגנים בהשוואה למזנכימה שלדית. חלק מהמחשבים האישיים עשויים להתאים במידה רבה למגוונות שנדונו לעיל, ויזואליזציה של משתנים אלה בין המרכיבים העיקריים המובילים יכולה להיות שיטה מועילה להבין את השפעתם על ניתוחים במורד הזרם. לדוגמה, מחזור התא לעתים קרובות מניע אחד או יותר מהמחשבים המוקדמים, והתבוננות בהיעלמותו של מחשב זה יכולה להועיל להבטיח שהרגרסיה או גישות אחרות היוו את השפעות מחזור התא. לאחר יצירת מחשבים אישיים, המשתמשים בדרך כלל יבחרו באיזה מהמחשבים הבאים להשתמש כדי לצרף את הנתונים באמצעות ק פירושו אשכולות או שיטה אחרת. שיטות חישוביות כמו חלקה של Jackstraw יכולות לעזור להמחיש את הסיכוי שכל רכיב עיקרי נצפה במקרה ובכך לסייע בבחירת אילו מחשבים אישיים יכולים לסייע בהנחיית מקבץ בעל משמעות ביולוגית של הנתונים. עם זאת, אולי השיטה השימושית ביותר היא לבצע את הניתוח באופן איטרטיבי עם מספר מחשבים שונים ולבחון באופן אמפירי כיצד בחירות אלה משפיעות על אוכלוסיות עניין, תוך שימוש באוכלוסיות התואמות אוסטאובלסטים, כונדרוציטים או אוכלוסיות מזנכימליות המוגדרות בבירור כ"ציוני דרך "לסיוע. בהערכת האופן שבו אוכלוסיות צפויות נפרדות כבקרה פנימית לנכונות האשכול.

השלב האחרון בניתוח scRNA-seq הוא להציג את האשכולות ולהבין אילו אוכלוסיות תאים מיוצגות על ידי ניתוח של שני הגנים המגדירים כל אשכול וגם ביטוי של גנים מעניינים המגדירים באופן קלאסי אוכלוסיות ידועות, כגון תמלילי אוסטאוקלצין המגדירים אוסטאובלסטים בוגרים. אשכולות מיוצגים בדרך כלל באמצעות t הטבעה של שכנים סטוכסטיים מופצים (t-SNE), אלגוריתם ויזואליזציה של נתוני הפחתת ממדים, 46 או לאחרונה, קירוב והקרנה אחיד (UMAP) אחיד. 47 יש לציין, t-SNE מעסיקה מספר פרמטרים שהוגדרו על ידי המשתמש שיכולים להשפיע באופן דרמטי על תפוקת הקצה, כלומר נדרשת זהירות כדי להימנע מפרשנות יתר של תכונות כגון גודל אשכול או מרחק שעשוי לשקף את הפרמטרים שהוגדרו על ידי משתמשים יותר מאשר הנתונים הבסיסיים (https: //distill.pub/2016/misread-tsne/). 48

עם היכולת לאפיין את הטרנסקריפטומים של תאים בודדים, שאלה אחת מסקרנת היא האם ניתן לזהות שינויי ביטוי גנים באוכלוסיות תאים מובחנות לאחר הפרעות תרופתיות, גנטיות או סביבתיות על השלד. למרות שזוהי אפשרות מרגשת, ישנם מספר אתגרים חשובים שיש לקחת בחשבון לפני שמנסים ניסויי פרופיל ביטוי גנים השוואתיים עם scRNA-seq. ראשית, המתודולוגיות הזמינות כיום תופסות רק אחוז קטן מהתמלילים (בערך 5% עד 15%) הקיימים בכל תא. כתוצאה מהדגימה הדלילה והסטוכסטית הזו, נתוני ביטוי גנים עשויים להיות קשים לפרשנות לגנים בעלי רמות ביטוי בינוניות עד נמוכות, שכן רבים מהגנים הללו עשויים להראות "נשירה" לכאורה של הביטוי של התמלילים הללו בתוך כל אשכול בשל אותה תמלול לא נדגמים בתא הספציפי הזה. כתוצאה מכך, יש לפרש בזהירות את העדר לכאורה של גן בעל עניין באשכול, שכן הוא עשוי לייצג פשוט כי התמלול מתבטא ברמה מתחת לסף הגבוה הדרוש לגילוי. נושאים אלה יכולים להיות מסובכים עוד יותר אם הבדלים בדגימת התמליל בקרב אוכלוסיות הסלולר יובילו לסף זיהוי שונה בכל אשכול. אסטרטגיות חישוביות לטיפול בבעיה זו כוללות MAGIC (זקיפת גרף מבוססת זיקה של Markov של תאים), המסיקה ערכים לנתוני ביטוי גנים חסרים עקב בעיות דגימה בכל תא המבוססות על ביטוי גנים בתאים דומים. 49 לחלופין, כאשר הדבר אפשרי, בידוד סלולרי ואחריו רצף RNA בתפזורת מציע אולי את השיטה הפשוטה ביותר לאמת ניסויים לאמת שינויים בביטוי גנים שנצפו על ידי scRNA-seq. שנית, שיקול לא פחות חשוב הוא להבטיח הגדרה נכונה של אשכולות מובחנים המייצגים במדויק את המגוון התאי של רקמות השלד בהישג יד: כשהם יורדים משושלות דומות ומפגינים קווי דמיון תפקודיים, אוכלוסיות תאים מזנכימליים מובחנים מביאים לידי ביטוי מספר גנים ברמות גבוהות, והתמלול שלהם במערך נתונים חד-תאיים של RNA-seq יכול לדמות זה לזה, מה שמוביל לקבוצת אוכלוסיות תאים מובחנות מאוד. לכן, הערכה יסודית של כל אשכול תאים על מנת לא לכלול חפצים מתודולוגיים חיונית במהלך ניתוח הנתונים. טכניקות ברקוד תכונה שפותחו לאחרונה כגון CITE-seq ו- TotalSeq מראות מעט נשירה ויכולות לסייע להתגבר על בעיה זו ולאמת את זהות התא באמצעות מתאם של סמני חלבון הקשורים לקרום ופלט תעתיק. 26 אתגר שלישי ואולי ברור יותר הוא להבטיח כי הטרנסקריפטומים של התאים לא ישתנו באופן משמעותי על ידי תהליך בידוד התא. למרות שהיו חששות ש- FACS יכול להפריע לביטוי גנים, מחקרי אימות שפורסמו ברקמות שאינן עצמות מראים השפעות מינימליות על ביטוי גנים עם פרוטוקולים מותאמים. 50-52 As also discussed above, cell isolation–induced biases or artifacts can be particularly difficult to exclude when the goal of the experiment is to characterize the effects of environmental changes (such as dietary intake or mechanical loading) in the absence of an internal control (such as a genetic mutation blocking this response).

Despite the potential complexity of the scRNA-seq analysis pipeline, an increasing number of software tools are available, and several of these are designed to be accessible to investigators with no prior computational biology training. Notably, Seurat has online tutorials designed to get new users started with scRNA-seq analysis (https://satijalab.org/seurat/) and has several tools to help with regression or filtering-based approaches to account for covariates. 53 In addition to the basic analysis pipeline described here, a number of analytic tools have been designed to focus on answering specialized questions (Table 2). One of these, RaceID, focuses on identifying outlier cells relative to each of the clusters and thereby attempts to identify rare, sparsely sampled populations that may be of biologic interest. 54 Combination of RaceID approaches with identification of computational features of stemness, including high transcriptional entropy and interconnectedness of the population in an inferred differentiation trajectory, has been used for de novo computational identification of stem cell populations. 55

Another set of analysis tools focuses on inferring the relationships among the populations defined during the clustering step, often by defining a series of edges or lines that connect these populations into a tree or trajectory through additional dimensionality reduction. These connections are typically inferred on the principle that changes in gene expression as cells differentiate tend to be parsimonious, involving minimal changes during each differentiation event. For example, a series of cells differentiating along an osteoblast differentiation pathway are likely to retain many elements of the transcriptional character of osteoblasts during this process and therefore be more transcriptionally similar to each other than to unrelated mesenchymal lineages. In a common form of this analysis, construction of a minimum spanning tree, algorithms seek to connect all of the cell clusters with a “tree” that minimizes total sum of the “distances” of these connections across a space representing gene expression. Notably these kinds analyses makes the assumption that all of the cell types present in the sample share a lineage relationship, and for some types of specimens such as those including both endosteal and periosteal mesenchymal cells, this assumption may be false. 3 Thus, these approaches are greatly enhanced when used in conjunction with positive selection for a genetically encoded lineage tracing marker to provide assurance that the cells under analysis do share a lineage relationship. In an alternative method to infer cellular differentiation trajectories, a recent approach measures RNA velocity, or the rate of change in the expression of a gene through the ratio of unspliced to mature transcripts. 56 This can in turn be used to infer the future expression profile of cells and predict impending transitions among cell types. One of the most widely used tools for this kind of analysis is Monocle. 40, 57, 58 After dimensionality reduction and clustering, Monocle performs minimum spanning tree analysis to connect each cell cluster, finds the longest path along this tree, and then orders these clusters according to an inferred timeline of differentiation. Because this timeline does not refer to actual measured time, it is instead termed “pseudotime.” Proof of concept of this approach includes demonstrating that Monocle 2 can reconstruct known hematopoietic lineage trees from single-cell data. Notably, Monocle is able to accept sequential data drawn from multiple time points, making it particularly suitable for reconstructing in vitro cellular differentiation pathways from multiple sampled cultures of asynchronously differentiating cells or an analysis of the differentiation of cells in a fracture callus over time.

In scRNA-seq studies, some tissue types appear to show robust separation by clustering, such as different lineages of immune cells, while other tissue types display less robust separation due to broadly shared gene expression programs, intermediate cell states, or other causes. Studies to date suggest that skeletal mesenchyme may fall more in the latter than the former category, so tools that focus on resolving closely related populations may be useful in skeletal studies. 3 One clustering algorithm, biSNE (biclustering on stochastic neighbor embedding), aims to enforce a more robust separation of populations and thereby delineate between distinct but related cell populations and may thereby be useful for separating distinct mesenchymal subpopulations. 35


“We see single-cell RNA-seq as the right way to do gene expression analysis”

Some sequencing applications, such as the detection of single nucleotide polymorphisms, can be managed with short-read technology. Other applications, such as the detection of structural variants, may demand long-read technology, and some applications, such as the assembly of a new organism’s genome, may require a combined approach, with short reads providing accuracy and high throughput, where possible, and long reads coping with highly repetitive genomic regions.

from “Next-Generation Sequencing Challenges” by Shawn C. Baker at Genetic Engineering News

Although the major sequencing platform companies have spent years bringing down the cost of generating raw sequence, the same has not been true for library prep. Library prep for human whole-genome sequencing, at about $50 per sample, is still a relatively minor part of the total cost. But for other applications, such as sequencing bacterial genomes or low-depth RNA sequencing (RNA-seq), it can account for the majority of the cost.

Several groups are working on multiplexed homebrew solutions to bring the effective costs down, but there haven’t been many developments on the commercial front. One bright spot is in the development of single-cell sequencing solutions, such as the Chromium™ system from 10X Genomics, which uses a bead-based system for processing hundreds to thousands of samples in parallel.

“We see single-cell RNA-seq as the right way to do gene expression analysis,” insists Serge Saxonov, Ph.D., co-founder and CEO of 10X Genomics. “Over the next several years, much of the world will transition to single-cell resolution for RNA experiments, and we are excited for our platform to lead the way there.” For large projects, such as those required for single-cell RNA-seq, highly multiplexed solutions will be critical in keeping per-sample costs reasonably low.

Illumina’s dominance of the sequencing market has meant that the vast majority of the data that has been generated so far is based on short reads. Having a large number of short reads is a good fit for a number of applications, such as detecting single-nucleotide polymorphisms in genomic DNA and counting RNA transcripts. However, short reads alone are insufficient in a number of applications, such as reading through highly repetitive regions of the genome and determining long-range structures.

Long-read platforms, such as the RSII and Sequel from Pacific Biosciences and the MinION from Oxford Nanopore Technologies, are routinely able to generate reads in the 15–20 kilobase (kb) range, with individual reads of over 100 kb having been reported. Such platforms have earned the respect of scientists such as Charles Gasser, Ph.D., professor of molecular and cellular biology at the University of California, Davis.

“I am impressed with the success people have had with using the long-read methods for de novo genome assembly, especially in hybrid assemblies when combined with short-read higher fidelity data,” comments Dr. Gasser. “This combination of technologies makes it possible for a single investigator with a very small group and a minimal budget to produce a useable assembly from a new organism’s genome.”


Visualizing Single-Cell RNA-Seq Data with t-SNE: Researcher Interview with Dmitry Kobak and Philipp Berens

Enlarge

t-SNE embedding of 2 million mouse embryo cells with default parameters from the original publication (left) versus recommended parameters for preserving cell lineage relationships (right), with neuronal development clusters highlighted.

Single-cell transcriptomics can help to untangle the complexities of cancer, from how the disease develops to how a particular tumor responds to or resists treatment.

For example, researchers are starting to deconvolve the tumor microenvironment in terms of both cell type and their active transcriptional programs—an unprecedented level of detail for many cancers that may provide therapeutic insights.

With this widely used, perhaps even now commonplace method, it has become relatively easy to produce single-cell data sets. However, the prospect of analyzing transcripts from hundreds of thousands (or even millions) of individual cells might still be overwhelming.

A logical first step in analyzing single-cell RNA-sequencing (scRNA-seq) data is visualization, and a popular method for this is t-distributed stochastic neighbor embedding (t-SNE).

In “The art of using t-SNE for single-cell transcriptomics,” published in תקשורת טבע, Dmitry Kobak, Ph.D. and Philipp Berens, Ph.D. perform an in-depth exploration of t-SNE for scRNA-seq data. They come up with a set of guidelines for using t-SNE and describe some of the advantages and disadvantages of the algorithm. The researchers are from the Institute for Ophthalmic Research at the University of Tübingen, and Dr. Berens is a professor of Data Science for Vision Research.

Peggy I. Wang: As researchers at the Institute for Ophthalmic Research, what’s the link that brings you to visualization for RNA-seq data?

Philipp Berens: Single-cell RNA-seq holds tremendous potential for many fields, including basic retinal research and research into mechanisms of eye diseases. For example, it allows linking cell types between the mouse, the primate, and the human, and even organoids, identifying potential target sites for new drug developments.

We’ve focused a lot on data visualizations and machine learning techniques, including applying many of our tools to understand the mouse cortex. We also have exciting collaborations right now applying our RNA-seq tools to ophthalmic data.

PIW: What is it about single-cell RNA-seq data that requires a new visualization method?

Dmitry Kobak: There is probably a new method for visualizing single-cell transcriptomic data appearing every month, sometimes several! There are several reasons for this, I think:

First, scRNA-seq data is just awesome to visualize, with a wealth of biological information reflected in the way the cells are arranged in the so-called הטבעה, most often a two-dimensional (2D) scatter plot.

For example, there can be dozens of different cell types within one tissue, all appearing as distinct islands in the scatter plot. Islands can cluster together to form archipelagoes, reflecting related but distinct cell types and subtypes. Or they can form connected structures, reflecting continuous biological features, like cells transitioning between stem cell stages. The data can form a tree-like structure that on the 2D plot often ends up looking like an octopus!

Second, single-cell datasets are often collected with an exploratory goal in mind: taking a biological tissue apart into its constituent parts—single cells—and describing what cells are there, how they look and work. This makes unsupervised statistical methods very popular: people want to lay out their data in two or three dimensions, find interesting patterns, and find some way to make sense of those patterns.

Third, there is no perfect method, at least not yet! Some visualization methods can deal with clustered data really well but tend to obscure developmental trajectories. Some can capture continuous structures but tend to clump multiple clusters together. Some are computationally expensive and cannot deal with millions of cells. Also, with amazing progress in experimental techniques, new datasets present new challenges. A visualization method that worked well a few years ago might be now pushed to its limits, and new tools are needed.

PIW: Is t-SNE a new thing? Or repurposed from something else?

DK: t-SNE was developed in 2008 as an extension of an earlier algorithm called simply, ‘SNE’. In retrospect, I think the original SNE paper was really transformative, more so than was appreciated at the time. It initiated this new genre of dimensionality reduction methods based on preserving neighborhood relationships (SNE stands for “stochastic neighbor embedding”).

It wasn’t until around 2013 that the first efficient implementation of t-SNE was developed and the first major application of t-SNE to a single-cell data set was published. I’d say this gradually led to the t-SNE boom we’ve been seeing since then.

PIW: Without getting too technical, how does t-SNE work?

DK: The main idea behind SNE is very simple: the algorithm first finds similar data points, or “close neighbors”, in the original data set (in this case, cells with tens of thousands of gene expression measurements each). Then it tries to arrange the points in a 2D plot such that those close neighbors remain close and distant points remain distant.

This idea was revolutionary because popular methods of the past focus on preserving large distances the points that are far away in the original data should have similarly large distances in the 2D embedding. This is true of principal component analysis (PCA) and multidimensional scaling (MDS), the previous visualization methods of choice.

It turns out that preserving large distances does not work very well for transcriptomic data! Distances calculated from the original data behave very differently from distances in 2D spaces, and there just is no way to arrange the points in 2D such that they faithfully preserve the actual distances.

The SNE/t-SNE approach effectively says, “We give up! We will not even try to preserve numeric distances!” Instead, it only preserves whether the points are “near” or “far”, in some sense. This is how all other modern and effective visualization algorithms work, including largeVis and UMAP.

Let’s consider, for example, scRNA-seq data from the mouse cortex. Neurons of the same category, let's say fast-spiking interneurons, should have similar gene expression and be designated as “close” neighbors. t-SNE will try to position the fast-spiking interneurons so they do not overlap with other cell types, such as non-neural astrocytes.

PIW: So the final output of the algorithm is groups of cells with the original distances between the cells essentially forgotten. How does the algorithm achieve this output?

DK: t-SNE places the points in some initial configuration and allows them to interact as if they are physical particles. There are two “physical laws” of this interaction: 1) each pair of close neighbors attracts each other and 2) all other points repulse each other.

When I teach this process, I like to show the animation of how this happens. Close neighbors feel the attractive forces and gather together. Distant points are repulsed from each other and drift apart. This process runs for some time until the movement settles and the arrangement does not change anymore.

PIW: Can you explain the concept of local and global structure, which is discussed quite a bit in the paper?

DK: The idea of “structure” in dimensionality reduction actually lends itself quite well to cellular or organ structures in biology. Continuing with the example of the mouse cortex, fast-spiking interneurons may actually consist of several subtypes, and one would want to see these subtypes as individual clusters in the 2D plot. This is “local” structure.

But all inhibitory neurons and all excitatory neurons together are much more similar to each other than to non-neural cells, such as astrocytes or microglia. This is “global” structure.

t-SNE excels at finding local structure and showing specialized cell types as isolated islands. But it easily fails at representing the global structure: imagine that all these isolated islands are shuffled around and randomly arranged on the 2D space, such that an astrocyte island ends up in between two interneuron islands. This is what t-SNE will typically do.

PIW: What are the main dos and don’ts you’ve uncovered for using t-SNE?

DK: Initialization is one thing that we’ve found to be very important. As I mentioned, t-SNE positions the points in 2D in some initial configuration and then moves them around in small steps. The global arrangement of islands mostly depends on the initial configuration. Standard implementations use random initial configuration, leading to random arrangement of islands—and different results every time you run it.

We suggest using something called informative initialization, where rather than randomly placing points at the start, we use principal components or other prior knowledge about the cells’ relationships to help decide where points should start out. This often does the trick of preserving much more of the global structure and also produces a deterministic output.

Optimization parameters, such as the learning rate, can also have dramatic effects. We provide clear guidelines on how to set these parameters in our paper. The importance of learning rate was established in another paper published back-to-back with ours.

We also advise using something called “exaggeration” when embedding very large datasets (with hundreds of thousands or millions of points). Exaggeration makes the clusters tighter and increases the amount of white space, making visualizations easier to interpret. Interestingly, the mathematical reason behind why it works so well is not entirely clear this is one of the things we are currently working on.

PIW: Is t-SNE the clear winner for single-cell RNA-seq visualization? How does it compare with the other modern visualization methods?

DK: UMAP appeared in 2018 and has become hugely popular in the single-cell community, perhaps even more so than t-SNE. I think it has big potential, plus a very convenient and effective implementation.

As I previously mentioned, UMAP falls firmly within the same framework of embedding nearest neighbors. The equations for attraction are actually very similar to t-SNE but the equations for repulsion are different, making the internal implementation for UMAP very different.

On the surface, the main difference is that UMAP has stronger attractive forces, roughly corresponding to the t-SNE exaggeration factor of

4. Our group has been working on why it works out like this and figuring out the relationships between attractive and repulsive forces.

In our testing, we found that if following our guidelines, UMAP and t-SNE perform similarly. I think a lot of work still needs to be done to flesh out the trade-offs between the two methods.

PIW: Is t-SNE easy to use? How does accessibility compare with UMAP?

Dr. Dmitry Kobak, postdoctoral researcher at the Institute for Ophthalmic Research at the University of Tübingen.

DK: The fastest t-SNE implementation is called FIt-SNE. It is implemented in C++ and has wrappers for Python, R, and Matlab, making it very easy to use. There is also a pure Python re-implementation called openTSNE that is more flexible. Both are relatively easy to install (also true of UMAP).

Overall, the runtime for 2D embedding with t-SNE and UMAP are roughly comparable. For very large datasets (with millions of cells), FIt-SNE tends to run somewhat faster than UMAP. For 3D or higher-dimensional embeddings, UMAP is currently much faster.

PIW: Does t-SNE not scale for large data sets? What are the modifications to make it work?

DK: Until FIt-SNE appeared in 2017, it was a challenge to run t-SNE on any dataset with hundreds of thousands of points. Now I can embed a dataset with a million points in half an hour on my laptop, and in around 10 minutes on a powerful lab computer.

Another challenge is that large data sets tend to emphasize t-SNE’s weakness with capturing global structure. The archipelagoes and tree-like structures we described can get scrambled or distorted.

In our paper we suggest some ways to mitigate these problems with parameter settings and initialization techniques, but I see this only as a first step. These are heuristics for running t-SNE more effectively, and there is still a lot of room to develop new methods that could better preserve global and local structure. I am sure we will see more interesting developments in the next few years.

PIW: For someone with less statistics background, how do you know if you’ve done a good job using t-SNE or if you’ve just adjusted the parameters until you see what you want?

Dr. Philipp Berens, Professor of Data Science for Vision Research at the Institute for Ophthalmic Research, University of Tübingen.

DK: This question touches on an important problem: how to quantify whether a given 2D plot is faithful to the original data. I can easily imagine somebody running 10 different visualization algorithms with 10 different parameter settings on one dataset, getting 100 different embeddings and struggling to choose the “best” one. As you suggested, this could lead to cherry-picking.

Unfortunately, quantifying the faithfulness is a very difficult problem. There are some measures that are often used (e.g., fraction of preserved nearest neighbors, correlation between low-dimensional and high-dimensional distances), but my feeling is that many important properties of the data are not captured by these measures.

That said, if one wants to use t-SNE, our study explains how to set the algorithm parameters and initialization to achieve an effective visualization for large and small data sets. This is a straightforward way to get started, rather than play with parameters and risk cherry-picking.


תיאור ספר

The State of the Art in Transcriptome Analysis RNA sequencing (RNA-seq) data offers unprecedented information about the transcriptome, but harnessing this information with bioinformatics tools is typically a bottleneck. RNA-seq Data Analysis: A Practical Approach enables researchers to examine differential expression at gene, exon, and transcript levels and to discover novel genes, transcripts, and whole transcriptomes.

Balanced Coverage of Theory and Practice. Each chapter starts with theoretical background, followed by descriptions of relevant analysis tools and practical examples. Accessible to both bioinformaticians and nonprogramming wet lab scientists, the examples illustrate the use of command-line tools, R, and other open source tools, such as the graphical Chipster software.

The Tools and Methods to Get Started in Your Lab. Taking readers through the whole data analysis workflow, this self-contained guide provides a detailed overview of the main RNA-seq data analysis methods and explains how to use them in practice. It is suitable for researchers from a wide variety of backgrounds, including biology, medicine, genetics, and computer science. The book can also be used in a graduate or advanced undergraduate course.


צפו בסרטון: Microarrays vs RNA Sequencing (יָנוּאָר 2022).