Pristopi za izboljšanje kakovosti dolgih odčitkov sekvenciranja

diplomsko delo

Ana Kukenberger (Avtor), Jernej Jakše (Mentor)

Povzetek

Pri tehnologijah sekvenciranja dolgih odčitkov je kakovost odčitkov zaradi tehničnih razlogov mnogokrat slaba. Slabšo kakovost končnih odčitkov opravičujejo številne prednosti teh tehnologij. Vseeno pa odčitkov s tolikšno količino napak ne moremo uspešno uporabiti za nadaljnje analize. Za popravljanje napak uporabljamo temu namenjene algoritme, ki jih v splošnem delimo na dva tipa: hibridne in nehibridne. Hibridni mehanizmi za popravljanje napak za svoje delovanje uporabljajo tako dolge, kot tudi kratke odčitke ostalih tehnologij sekvenciranja. Največkrat temeljijo na principu popravljanja napak dolgih odčitkov, s pomočjo poravnave kratkih odčitkov visoke kakovosti. Nehibridni mehanizmi za popravljanje napak pa za svoje delovanje uporabljajo le dolge odčitke. Za določanje konsenzne sekvence uporabijo informacijo o prekrivanju dolgih odčitkov med sabo. Z uporabo algoritmov izboljšamo kakovost dolgih odčitkov. Za te algoritme pa ni dovolj, da le uspešno odpravljajo napake. Biti morajo tudi računsko zmogljivi in zmožni obdelave velike količine podatkov. Že danes lahko s pomočjo teh mehanizmov rešujemo probleme v sekvenciranju, ki jih pred nekaj leti še nismo mogli. Trenutni trend razvoja algoritmov za popravljanje napak kaže, da bodo le-ti v naslednjih nekaj letih še bolj zanesljivi in učinkoviti.

Ključne besede

genom;sekvenciranje;zaporedje DNA;dolgi odčitki;popravljanje napak;algoritmi;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2021
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL BF - Biotehniška fakulteta
Založnik:	[A. Kukenberger]
UDK:	601.4:577.212.3(043.2)
COBISS:	75565571
Št. ogledov:	230
Št. prenosov:	35
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Approaches for quality improvement of long sequence reads
Sekundarni povzetek:	Long sequencing read technologies are currently hindered by high error rates in the output data associated with the technical design of the approach. Due to many advantages in long read technologies, high error rates tend to be disregarded. However, high error rates prohibit accurate analyses of such data. Algorithms used for long reads’ error correction, can be divided into two groups: hybrid and non-hybrid. Hybrid methods take advantage of high accuracy of short reads for correcting errors in long reads. Non-hybrid methods however, perform self-correction with long reads alone. They usually contain a step to generate consensus sequences using overlap information. Generally speaking, algorithms improve quality of long reads. Ultimately, just handling high error rates is not enough. Those algorithms also have to be computationally efficient and be able to handle big sets of data. It is hard to imagine DNA sequencing without long read technologies. They have helped us to solve sequencing problems that have been unsolvable up until recently. Further development of error correcting algorithms will only make them more reliable and efficient.
Sekundarne ključne besede:	genome;sequencing;DNA sequence;long reads;error correction;algorithms;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	0
Komentar na gradivo:	Univ. v Ljubljani, Biotehniška fak., Študij biotehnologije
Strani:	VI, 20 str.
ID:	13335664