Behandle data fra store filer
Oppgaver vi jobber med sammen p? gruppetimen i uke 5.
Python kan brukes til ? analysere og lese datafiler som er s? store at vi ikke kan ?pne dem eller analysere dem manuelt.
Et eksempel p? slike datasett er genom-data. Denne filen inneholder DNA-sekvensen til kromosome 1, 2 og 3 til et menneske. Filen er s? stor at det ikke vil fungere ? ?pne den og se p? den manuelt, men med Python kan vi ganske raskt og enkelt lese og g? gjennom filen.
Oppgave 1
Last ned filen, og skriv Python kode som printer de f?rst 10 linjene.
Oppgave 2
Du vil se at den f?rste linjen er >1
og deretter kommer det 10 linjer med DNA. I dette tilfellet er sekvensen bare N, som betyr at den er ukjent. Pr?v i stedet ? printe de f?rste 10000 linjene, s? vil du se "kjent" DNA.
Den f?rste linjen >1
forteller at alt som kommer etter dette er sekvensen til kromosom 1. Etter ganske mange linjer vil det komme en linje >2
. Hver linje best?r av 80 baser (A, C, T G, eller N).
Oppgave
澳门皇冠体育,皇冠足球比分 har vist at personer som har en C p? posisjon 135851076
p? kromosom 2 har stor sannsynlighet for ? v?re laktoseintolerante. Du jobber p? et sykehus, og filen du lastet ned er DNA-et til en person. Avgj?r om denne personen er genetisk disponert for ? v?re laktoseintolerant.
NB: Posisjon 135851076 vil si base nr. 135851076 der den f?rste basen p? kromosome 2 regnes som nr. 1 (ikke 0).
Lag en plan for hvordan du vil g? frem for ? l?se denne oppgaven f?r du begynner p? den.
Oppgave 3
Eksempelet med laktoseintoleranse er bare ett eksempel der én enkelt base kan f?re til en egenskap.
Denne filen inneholder flere andre egenskaper som vi ?nsker ? sjekke automatisk. Hver linje i filen er p? formatet [Kromosom],[Posisjon],[Base som f?rer til egenskapen],[Beskrivelse av egenskapen]
.
Skriv et program som g?r gjennom filen og sjekker alle egenskapene. Det kan v?re lurt ? skrive funksjoner for ? gj?re de ulike tingene koden din m? ta seg av.