Controlling protein levels in synthetic operons
العنوان: | Controlling protein levels in synthetic operons |
---|---|
المؤلفون: | Gerngross, Daniel |
المساهمون: | Panke, Sven, Beerenwinkel, Niko, Reddy, Sai, Baldwin, Geoff |
بيانات النشر: | ETH Zurich, 2020. |
سنة النشر: | 2020 |
مصطلحات موضوعية: | BIOLOGICAL INFORMATICS AND COMPUTER APPLICATIONS IN BIOLOGY, bioengineering, ddc:570, Machine learning, Escherichia coli, synthetic biology, BACTERIOLOGY/MICROBIOTECHNOLOGY, Operon optimization, Biotechnology, Life sciences |
الوصف: | Synthetic biology aims to rationally manipulate biological systems into performing useful functions. Most of these functions rely largely on the functional interplay of multiple proteins performing a given task in a host organism. These tasks include detecting molecular inputs, the production of chemicals through a synthetic pathway, and the molecular processing of information through genetic circuits. For a successful performance of these multi-protein systems, not only an optimal set of active proteins needs to be combined, but also their expression levels require an optimal balance. Therefore, controlling the expression levels of proteins through a better understanding of natural or construction of synthetic regulatory elements such as promoters and ribosome binding sites is central to the field of synthetic biology. In bacteria, natural multi-protein systems are often encoded in polycistronic transcription units called operons. This type of genetic construct, in which multiple open reading frames are transcribed from a single promoter, is also commonly employed in synthetic biology if a bacterial host organism is used. As operons require just one promoter for the expression of multiple proteins they provide a compact and genetically stable design that is attractive for industrial applications. However, the differential gene expression of multiple proteins from operons in natural systems involves several interacting molecular mechanisms that are still part of active research. Therefore, the extent of design principles that can go into the construction of synthetic operons is still limited, and synthetic biologists have to rely on ad hoc rules to provide an initial design. This initial design then has to go through multiple design-build-test cycles and the screening of libraries before the protein expression is fine-tuned to meet the system’s performance requirements. A better understanding of the most important elements influencing a particular operon design’s expression levels and reliable expression level predictions for synthetic operons could speed up this optimization process to construct new systems. This thesis presents a new approach towards better understanding and designing synthetic operons by employing high-throughput experimenting and machine learning. This approach included the construction of operons with varying arrangements of up to seven fluorescent proteins using ligase cycling reaction DNA assembly. This resulted in the construction of 95 operon designs that were measured under different inductions conditions using high throughput, multiplex flowcytometry generating in total 2772 fluorescence measurements. While overall trends like (i) a decrease of expression levels with increasing operon length and (ii) an increase of expression levels of proteins whose open reading frames are located towards the end of an operon could be observed, a closer inspection of individual expression level patterns across each operon revealed that such simple ad hoc rules are insufficient for reliable predictions. Therefore, I chose a machine learning approach using sequence-based features to generate a model that can predict the variety of expression level patterns arising from different operon designs. For this, 54 features ranging from basic properties like sequence length and GC content to features derived from RNA structure predictions, were used to train a random forest regression model. The final model was able to explain approximately 80% of the variance of a testing data set that contained operon designs that were not part of the training set. Remarkably, the majority of the predictions of this testing set were accurate within a 1.35-fold error compared to the measurements, suggesting an accuracy of the predictions that meets the requirements for a typical system optimization campaign in synthetic biology. Furthermore, it was possible to determine which features had the highest impact on the predictions using Shapley additive explanation values. This revealed that next to the position of an open reading frame within an operon and the induction conditions, structural RNA features influencing RNA degradation and translation have the highest impact on expression level patterns. In the end, the random forest model constructed in this study was able to predict the expression levels of the proteins encoded in several synthetic operons with a diverse composition, thus, closely resembling the expression level patterns observed in each measurement. This machine learning-based expression level prediction of synthetic operons will potentially allow synthetic biologists to step further away from inaccurate ad hoc rules in operon design and start designing different operon first on the computer before choosing a set of operons to experimentally test in a sped-up design-build-test cycle. Die Synthetische Biologie hat das Ziel, biologische Systeme rational so zu programmieren, dass sie nützliche Funktionen erfüllen. Die meisten dieser Funktionen beruhen weitgehend auf dem Zusammenspiel mehrerer Proteine, die in einem Wirtsorganismus eine bestimmte Aufgabe erfüllen. Zu diesen Aufgaben gehören der Nachweis von Molekülen, die Produktion von Chemikalien über einen synthetischen Weg und die molekulare Verarbeitung von Information über genetische Schaltkreise. Für eine erfolgreiche Funktionalität dieser Multiproteinsysteme muss nicht nur ein optimaler Satz aktiver Proteine kombiniert werden, sondern auch ihre Expressionsniveaus müssen zueinander passen. Daher ist die Steuerung der Expressionsniveaus von Proteinen durch ein besseres Verständnis der natürlichen oder der Konstruktion synthetischer regulatorischer Elemente wie Promotoren und Ribosomenbindungsstellen von zentraler Bedeutung auf dem Gebiet der synthetischen Biologie. In Bakterien werden natürliche Multiproteinsysteme oft in polycistronischen Transkriptionseinheiten, den sogenannten Operons, kodiert. Die Organisationsform, bei der mehrere offene Leseraster von einem einzigen Promotor transkribiert werden, wird in der synthetischen Biologie auch häufig eingesetzt, wenn ein bakterieller Wirtsorganismus verwendet wird. Da Operons für die Expression mehrerer Proteine nur einen einzigen Promotor benötigen, bieten sie ein kompaktes und genetisch stabiles Design, das für industrielle Anwendungen attraktiv ist. Die differentielle Genexpression von mehreren Proteinen aus Operons in natürlichen Systemen erfolgt durch mehrere interagierende molekulare Mechanismen, deren genaue Funktionsweise noch immer Teil der aktiven Forschung ist. Daher ist der Umfang der Designprinzipien, die in die Konstruktion synthetischer Operons einfliessen können, noch begrenzt, und synthetische Biologen müssen sich auf Ad-hoc-Regeln verlassen, um ein erstes Design zu erstellen. Dieser anfängliche Entwurf muss dann mehrere Design-Build-Test-Zyklen und das Screening von Bibliotheken durchlaufen, bevor die Proteinexpression fein abgestimmt werden kann, damit die Leistungsanforderungen des Systems erfüllt sind. Ein besseres Verständnis der wichtigsten Elemente, die das Expressionsniveau der Proteine, die in einem bestimmten Operondesign kodiert sind, und zuverlässigere Vorhersagen des Expressionsniveaus für synthetische Operons könnten diesen Optimierungsprozess zur Konstruktion neuer Systeme beschleunigen. In dieser Arbeit wird ein neuer Ansatz für ein besseres Verständnis und Design synthetischer Operons durch den Einsatz von Hochdurchsatz-Experimenten und maschinellem Lernen vorgestellt. Dieser Ansatz beinhaltete die Konstruktion von Operons mit unterschiedlichen Anordnungen von bis zu sieben fluoreszierenden Proteinen unter Verwendung der Ligase-Cycling-Reaktion-basierten DNA-Assemblierung. Daraus resultierte ein grosser Datensatz mit 95 Operondesigns, die unter verschiedenen Induktionsbedingungen unter Verwendung von Multiplex-Durchflusszytometrie gemessen wurden, und 2772 Fluoreszenzmessungen. Während allgemeine Trends wie (i) eine Abnahme der Expressionsniveaus mit zunehmender Operonlänge und (ii) eine Zunahme der Expressionsniveaus von Proteinen, deren offene Leseraster sich gegen Ende eines Operons befinden, beobachtet werden konnten, zeigte eine genauere Untersuchung der einzelnen Muster der Expressionsniveaus über alle Operons hinweg, dass solche einfachen Ad-hoc-Regeln für zuverlässige Vorhersagen unzureichend sind. Daher wurde ein Ansatz über das maschinelle Lernen gewählt, bei dem sequenzbasierte Merkmale verwendet werden, um ein Modell zu generieren, das die Vielfalt der Muster auf Expressionsebene, die sich aus verschiedenen Operondesigns ergeben, vorhersagen kann. Dazu wurden 54 Merkmale, die von grundlegenden Eigenschaften wie Sequenzlänge und GC-Gehalt bis hin zu aus RNA-Strukturvorhersagen abgeleiteten Merkmalen reichen, verwendet, um ein Random-Forest-Regressionsmodell zu trainieren. Das finale Modell war in der Lage, etwa 80% der Varianz eines Testdatensatzes zu erklären, bei dem die Operondesigns nicht Teil des Trainingssatzes gewesen waren. Bemerkenswert ist, dass die Mehrzahl der Vorhersagen dieses Testsatzes im Vergleich zu den Messungen innerhalb eines 1,35-fachen Fehler genau waren, was auf eine Genauigkeit der Vorhersagen schließen lässt, die den Anforderungen einer typischen Systemoptimierungskampagne in der synthetischen Biologie genügt. Darüber hinaus war es möglich, mit Hilfe des Verfahrens der Shapley-Additiv-Erklärungswerte zu bestimmen, welche Merkmale den größten Einfluss auf die Vorhersagen hatten. Dabei zeigte sich, dass neben der Position eines offenen Leserasters innerhalb eines Operons und den Induktionsbedingungen strukturelle RNA-Merkmale, die den RNA-Abbau und die Translation beeinflussen, den größten Einfluss auf die Muster auf Expressionsebene haben. Letztendlich war das in dieser Studie konstruierte Random-Forest-Modell in der Lage, die Expressionsniveaus der Proteine in mehreren synthetischen Operons mit unterschiedlicher Zusammensetzung korrekt vorherzusagen. Diese auf maschinellem Lernen basierende Vorhersage des Expressionsniveaus von synthetischen Operons sollte synthetische Biologen in die Lage versetzen, mit dem Design verschiedener Operons zunächst am Computer zu beginnen, um einen reduzierten Satz von Operons auszuwählen, die in einem dann beschleunigten Design-Build-Test-Zyklus experimentell getestet werden. |
وصف الملف: | application/application/pdf |
اللغة: | English |
DOI: | 10.3929/ethz-b-000484875 |
URL الوصول: | https://explore.openaire.eu/search/publication?articleId=doi_dedup___::8e47f401e42f9ca8c9039c3b8aac54d7 |
Rights: | OPEN |
رقم الانضمام: | edsair.doi.dedup.....8e47f401e42f9ca8c9039c3b8aac54d7 |
قاعدة البيانات: | OpenAIRE |
كن أول من يترك تعليقا!