RNA – Secondary Structure Prediction

Slides:



Advertisements
מצגות קשורות
ילדי גן "יסמין" וגן פרפר נחמד" נוטעים יחד עם חיילי סמ"ג חוף
Advertisements

כרטיסי מידע להכרת הציפורים שבקרבת משכנות האדם
الاشكال الهندسية צורות הנדסיות
עמל שפרעם-מודל להתמודדות עם תלמידים תת משיגים
وظائف الفجوة الخلوية وظائف الفجوة المحافظة علي استمرارية ضغط الامتلاء Turger pressure للخلية وهو هام جدا للتركيب الدعامي وللتحكم في حركة الماء.
מגמת ניהול עסקי "קציר".
מיפוי הנשים הפלסטיניות הכותבות אחרי 1948
תמליל מצגת:

RNA – Secondary Structure Prediction

RNA role in organisms The central dogma of biology: RNA as a catalyst: Discovered in the early 1980’s. Protein RNA DNA Non Coding RNA אחד מהגילויים האלו הוא רנ"א שאינו מקודד לחלבון. כלומר לא כל הרנ"א שמשועתק מדנ"א מתורגם לחלבון, חלקו נשאר כמולקולת רנ"א. עד לאותו רגע סברו כי החלבונים אחראיים לכל התהליכים בתא החי. עם גילוי הרנ"א הלא מקודד גדלה ההתעניינות של החוקרים במולקולות הרנ"א ובגילויים של תהליכים בהם הוא משתתף, ובפרט בבקרת ביטוי של גנים.

RNA as a catalyst אחד מהגילויים האלו הוא רנ"א שאינו מקודד לחלבון. כלומר לא כל הרנ"א שמשועתק מדנ"א מתורגם לחלבון, חלקו נשאר כמולקולת רנ"א. עד לאותו רגע סברו כי החלבונים אחראיים לכל התהליכים בתא החי. עם גילוי הרנ"א הלא מקודד גדלה ההתעניינות של החוקרים במולקולות הרנ"א ובגילויים של תהליכים בהם הוא משתתף, ובפרט בבקרת ביטוי של גנים.

RNA as a catalyst אחד מהגילויים האלו הוא רנ"א שאינו מקודד לחלבון. כלומר לא כל הרנ"א שמשועתק מדנ"א מתורגם לחלבון, חלקו נשאר כמולקולת רנ"א. עד לאותו רגע סברו כי החלבונים אחראיים לכל התהליכים בתא החי. עם גילוי הרנ"א הלא מקודד גדלה ההתעניינות של החוקרים במולקולות הרנ"א ובגילויים של תהליכים בהם הוא משתתף, ובפרט בבקרת ביטוי של גנים. By en:User:Paul Atomic structure of the 50S Subunit from Haloarcula marismortui. Proteins are shown in blue and the two RNA strands in orange and yellow By David S. Goodsell, CC BY 4.0

RNA as a catalyst A spliceosome is a large and complex molecular machine found primarily within the splicing speckles of the cell nucleus of eukaryotic cells. The spliceosome is assembled from snRNAs and protein complexes. The spliceosome removes introns from a transcribed pre-mRNA, a type of primary transcript. This process is generally referred to as splicing.[1] Only eukaryotes have spliceosomes and some organisms have a second spliceosome, the minor spliceosome.[2] An analogy is a film editor, who selectively cuts out irrelevant or incorrect material (equivalent to the introns) from the dailies and sends the cleaned-up version to be screened for the producer. In eukaryotes the spliceosome performs the splicing reactions essential for removing intron sequences, this process is required for the formation of mature mRNA. 

Structure Function RNA structure Primary Structure Secondary Structure Tertiary Structure לרנ"א יש מבנה, ואנו מבחינים בין שלוש רמות של מבנה. ברמה הראשונה - המבנה הראשוני – זהו רצף הבסיסים במולקולה – סדר הנוקלאוטידים ברצף. ברמה השנייה - מבנה שניוני, המבנה הזה מגדיר לנו את החיבור בין הבסיסים שאינם קרובים זה לזה ברצף, אבל יוצרים ביניהם אינטראקציה. המבנה השניוני מאופיין באלמנטים כמו לולאות ו- stem שהוא איזור base-paired. והרמה השלישית - מבנה שלישוני, מגדיר את המיקום של כל אטום במולקולה במרחב התלת מימדי. במבנה הזה ניתן לראות גם קשרים נוספים בין האלמנטים של המבנה השניוני, הנקראים פסאודונוטס. הסיבה שמבנה הוא מאפיין חשוב ברנ"א, היא שמבנה של הרנ"א מגדיר ומשפיע על הפונקציונליות שלו. ******************* Structure Function 6

RNA secondary structure מספר ויזואליזציות של המבנה השניוני של רצפי רנ"א שונים. חוקרים אשר עובדים על מולקולות הרנ"א, מסתכלים בדרך כלל על המבנה השניוני בלי להיכנס למבנה השלישוני. הסיבה לכך הן: היעדר מידע ניסיוני על המבנה השלישוני (אין מספיק מבנים תלת מימדיים מפוענחים של מולקולות רנ"א). החיזוי של המבנה השלישוני בעזרת מחשב הוא משימה שהיא כבדה מבחינה חישובית ביחס לחיזוי של מבנה שניוני. ניתן לראות שהרנ"א מורכב מאיזורים בהם הבסיסים יוצרים קשרים ביניהם – איזור זה נקרא גבעול. ואיזורים בהם הבסיסים לא יוצרים קשרים ביניהם – לולאות.

Terminology

Nested base pairs Two base pairs 𝑖, 𝑗 and (𝑖’,𝑗’) are called nested if 𝑖< 𝑖 ′ < 𝑗 ′ <𝑗 or 𝑖 ′ <𝑖<𝑗<𝑗 𝑖′ 𝑖 𝑗 𝑗′ nested pseudoknots Most base pairs in nature are nested. When non-nested base pairs occur, they are called pseudoknots.

Sequence constrained by structure It is relatively common to find examples of RNAs with a similar structure but without significant similarity. It would be advantageous to be able to search for conserved structure in addition to sequence when searching similar RNAs.

Sequence constrained by structure An example of a conserved structure:

Nussinov Jacobson Algorithm Ruth Nussinov proposed the first dynamic programming approach for RNA secondary structure prediction. She is a Professor in the Department of Human Genetics, School of Medicine at Tel Aviv University.

Nussinov Jacobson Algorithm In order to solve the problem, first we’ll define a scoring system 𝛿(𝑖,𝑗): If 𝑖 and 𝑗 are complementary 𝛿 𝑖,𝑗 =1. Otherwise 𝛿 𝑖,𝑗 =0. Our goal is to find a structure which maximizes 𝛿(𝑖,𝑗), over all base pairs – maximal number of base pairs Keep in mind, this is a simplistic approach!

Nussinov Jacobson Algorithm The problem: Find the secondary structure with the maximum number of paired bases Main idea: Dynamic programming - the optimal solution to a certain sequence will be derived from the optimal solution of the sub-sequences

Nussinov Jacobson Algorithm In order to solve our problem with DP, some assumptions must be made: The assumptions: No pseudoknots. All base pairs are of equal energy. Is this assumption necessary?

Nussinov Jacobson Algorithm When observing the bases 𝑖 and 𝑗 in an RNA sequence, four options are possible:

Nussinov Jacobson Algorithm Or, in other words:

Nussinov Jacobson Algorithm Or, in other words:

Nussinov Jacobson Algorithm Or, in other words:

Nussinov Jacobson Algorithm Or, in other words:

Nussinov Jacobson Algorithm Or, in other words:

Nussinov Jacobson Algorithm More formally: For an RNA sequence of length 𝑛 ∀𝑖 1≤𝑖≤𝑛: 𝑆(𝑖,𝑖)=0, ∀𝑖 2≤𝑖≤𝑛−1: 𝑆(𝑖+1,𝑗)=0 𝑆(𝑖,𝑛) 𝑖 is unpaired 𝑗 is unpaired bifurcation

Nussinov Jacobson Algorithm Initialization: ∀𝑖 1≤𝑖≤𝑛: 𝑆 𝑖, 𝑖 =0 ∀𝑖 2≤𝑖≤𝑛−1: 𝑆 𝑖+1, 𝑖 =0 j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm Initialization: ∀𝑖 1≤𝑖≤𝑛: 𝑆 𝑖, 𝑖 =0 ∀𝑖 2≤𝑖≤𝑛−1: 𝑆 𝑖+1, 𝑖 =0 j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm Initialization: ∀𝑖 1≤𝑖≤𝑛: 𝑆 𝑖, 𝑖 =0 ∀𝑖 2≤𝑖≤𝑛−1: 𝑆 𝑖+1, 𝑖 =0 j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm 𝑆 4,7 =𝑚𝑎𝑥 𝑆 5,6 +1 (𝑖𝑓 4,7 𝑏𝑎𝑠𝑒 𝑝𝑎𝑖𝑟) 𝑆(5,7) 𝑆(4,6) 𝑚𝑎𝑥 {[𝑆 4,5 +𝑆 6,7 ], [𝑆 4,6 +𝑆 7,7 ]} j i Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Nussinov Jacobson Algorithm Image Source: Durbin et al. (2002) “Biological Sequence Analysis”

Traceback The value at 𝑆(1,𝑛) is the total base pair count in the maximally base-paired structure We need to traceback from 𝑆(1,𝑛) to find the secondary structure A stack is used to deal with bifurcated structures

Traceback Initialization: Push (1,n) onto stack Recursion: Repeat until stack is empty: pop (i, j) If 𝑖≥ 𝑗 continue; // hit diagonal else if S(i+1,j) = S(i, j) push (i+1,j); // case 2 else if S(i, j-1) = S(i, j) push (i,j-1); // case 3 else if S(i+1,j-1)+1 = S(i, j) and (i,j) base pair: // case 1 record i, j base pair push (i+1,j-1); else for k=i+1 to j-1:if S(i, k)+S(k+1,j)=S(i, j): // case 4 push (k+1, j). push (i, k). break

Retrieving the Structure PAIRS STACK (1,9) CURRENT j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure PAIRS STACK (2,9) CURRENT (1,9) j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure PAIRS (2,9) STACK (3,8) CURRENT (2,9) G C G j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure PAIRS (2,9) (3,8) STACK (4,7) CURRENT (3,8) G C G C G j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure PAIRS (2,9) (3,8) (4,7) STACK (5,6) CURRENT (4,7) A U G C G C G j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure A PAIRS (2,9) (3,8) (4,7) STACK (6,6) CURRENT (5,6) A U G C G C G j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure A U C G PAIRS (2,9) (3,8) (4,7) STACK - CURRENT (6,6) j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Retrieving the Structure A A A U G C G C G j i Slide taken from Andrew Hendriks, CMPT 889, Selected Topics in Bioinformatics

Nussinov Jacobson Algorithm What is the algorithm’s runtime and complexity? Runtime: 𝑂( 𝑛 3 ) Space complexity: 𝑂( 𝑛 2 ) The trace back algorithm takes 𝑂( 𝑛 2 )

Drawbacks Doesn’t allow wobble base pairs like G-U Doesn’t consider stacking: A-U A-U U-A A-U Hair pin sizes not considered More advanced algorithms consider energy minimization, to solve these issues.

Free Energy (ΔG) ΔG approximated as the sum of contributions from loops, base pairs and other secondary structures U A G C 5′ 3′ unstructured single strand 0.0 5′ dangle -0.3 1nt bulge +3.3 4 nt loop +5.9 -1.1 terminal mismatch of hairpin -2.9 stack -2.9 stack (special case of 1 nt bulge) -1.8 stack -0.9 stack -2.1 stack Important difference from Nussinov is that energies of stems are calculated by adding stacking contributions for the interface between neighboring base pairs Results of thermodynamic studies [Freier et al., 1986; Turner et al. 1987] Image Source: Durbin et al. (2002) “Biological Sequence Analysis”