Pristopi za izboljšanje kakovosti dolgih odčitkov sekvenciranja

diplomsko delo

Ana Kukenberger (Author), Jernej Jakše (Mentor)

Abstract

Pri tehnologijah sekvenciranja dolgih odčitkov je kakovost odčitkov zaradi tehničnih razlogov mnogokrat slaba. Slabšo kakovost končnih odčitkov opravičujejo številne prednosti teh tehnologij. Vseeno pa odčitkov s tolikšno količino napak ne moremo uspešno uporabiti za nadaljnje analize. Za popravljanje napak uporabljamo temu namenjene algoritme, ki jih v splošnem delimo na dva tipa: hibridne in nehibridne. Hibridni mehanizmi za popravljanje napak za svoje delovanje uporabljajo tako dolge, kot tudi kratke odčitke ostalih tehnologij sekvenciranja. Največkrat temeljijo na principu popravljanja napak dolgih odčitkov, s pomočjo poravnave kratkih odčitkov visoke kakovosti. Nehibridni mehanizmi za popravljanje napak pa za svoje delovanje uporabljajo le dolge odčitke. Za določanje konsenzne sekvence uporabijo informacijo o prekrivanju dolgih odčitkov med sabo. Z uporabo algoritmov izboljšamo kakovost dolgih odčitkov. Za te algoritme pa ni dovolj, da le uspešno odpravljajo napake. Biti morajo tudi računsko zmogljivi in zmožni obdelave velike količine podatkov. Že danes lahko s pomočjo teh mehanizmov rešujemo probleme v sekvenciranju, ki jih pred nekaj leti še nismo mogli. Trenutni trend razvoja algoritmov za popravljanje napak kaže, da bodo le-ti v naslednjih nekaj letih še bolj zanesljivi in učinkoviti.

Keywords

genom;sekvenciranje;zaporedje DNA;dolgi odčitki;popravljanje napak;algoritmi;

Data

Language:	Slovenian
Year of publishing:	2021
Typology:	2.11 - Undergraduate Thesis
Organization:	UL BF - Biotechnical Faculty
Publisher:	[A. Kukenberger]
UDC:	601.4:577.212.3(043.2)
COBISS:	75565571
Views:	230
Downloads:	35
Average score:	0 (0 votes)
Metadata:

Other data

Secondary language:	English
Secondary title:	Approaches for quality improvement of long sequence reads
Secondary abstract:	Long sequencing read technologies are currently hindered by high error rates in the output data associated with the technical design of the approach. Due to many advantages in long read technologies, high error rates tend to be disregarded. However, high error rates prohibit accurate analyses of such data. Algorithms used for long reads’ error correction, can be divided into two groups: hybrid and non-hybrid. Hybrid methods take advantage of high accuracy of short reads for correcting errors in long reads. Non-hybrid methods however, perform self-correction with long reads alone. They usually contain a step to generate consensus sequences using overlap information. Generally speaking, algorithms improve quality of long reads. Ultimately, just handling high error rates is not enough. Those algorithms also have to be computationally efficient and be able to handle big sets of data. It is hard to imagine DNA sequencing without long read technologies. They have helped us to solve sequencing problems that have been unsolvable up until recently. Further development of error correcting algorithms will only make them more reliable and efficient.
Secondary keywords:	genome;sequencing;DNA sequence;long reads;error correction;algorithms;
Type (COBISS):	Bachelor thesis/paper
Study programme:	0
Thesis comment:	Univ. v Ljubljani, Biotehniška fak., Študij biotehnologije
Pages:	VI, 20 str.
ID:	13335664