Under f?lger eksempler p? teorisp?rsm?l som vi kan stille p? eksamen i tillegg til sp?rsm?l om prosjektoppgavene deres. For slike sp?rsm?l b?r man ogs? kunne svare p? oppf?lgingssp?rsm?let ?hvorfor??. De fleste av dere har allerede svart p? denne typen sp?rsm?l, direkte eller indirekte gjennom deltagelse i undervisningen gjennom semesteret, og i s? tilfelle bruker vi ikke tid p? dette p? eksamen.
Gi eksempel p? en pandas kommando som gj?r at du kan se dataframet ditt:
- - df.head(), display(df)
Hva gj?r train-test-split funksjonen i scikit-learn?
- Train-test-split tar all dataen v?r som input og deler den opp i trenings- og test-data. Trenings data til ? trene modellen v?r, og test til ? sjekke hvor god den er p? data som ikke har blitt brukt i tilpasningen av modellen.
Hvorfor gj?r vi train-test-split:
- Enkelt forklart gj?r vi dette for ? sikre at modellen v?r er god, ikke bare p? data den har sett, men ogs? data den ikke er trent p?. Kun slik kan vi vite hvor godt den fungerer i praksis.
N?r vi lager en modell basert p? data, setter vi gjerne opp f?lgende likning: Y=f(x)+ε. Forklar likningen og symbolene.
- Ligningen viser den underliggende systematiske sammenhengen mellom x-data (input) og Y-data (output). Sammenhengen er at det finnes en funksjon som tar inn x-data og spytter ut Y-data, til en n?yaktighet p?
. Denne funksjonen er alts? f(x) og
viser at det kan v?re variasjon utover sammenhengen.
- Y : Output
- X: input
- f(x) : sammenhengen vi ?nsker ? finne
: feil som ikke kan forklares av sammenhengen f(X).
- Les mer p? S.16 i pensum (https://www.statlearning.com/)
Hva skiller kategoriske og numeriske data:
- Numeriske data er data vi enkelt kan tilordne tall p? en skala som gir mening, kategoriske data er derimot data som tilh?rer ulike kategorier. Vi gj?r dette skille for ? vite hvordan vi skal behandle data, og hvilke modeller vi skal bruke.
- Les mer p? S.130 i pensum (https://www.statlearning.com/)
Hvordan kan vi gj?re om kategoriske data slik at de kan brukes i en modell:
- Ved ? bruke ?One hot encoding?. Hver kategori f?r sin egen kolonne med tallene 0(false) og 1(true).
Hvilken av line?r- og logistisk-regresjon vil du bruke om du vil predikere kategoriske data?:
- Logistisk regresjon.
- Siden vi kan tilegne kategoriske data verdiene 0 og 1 for ? representere hver av kategoriene, vil den logistiske funksjonen, som g?r mellom 0 og 1 v?re godt egnet til dette.
Hvilken av line?r- og logistisk-regresjon vil du bruke om du vil predikere numeriske data?:
- Line?r regresjon.
Hva m?ler mean squared error:
- Hvor stor gjennomsnittlig avstand det er mellom datapunktene vi modellerer, og modellens som pr?ver ? modellere dataene. Dette er et av flere m?l vi kan bruke for ? vurdere hvor god modellen er.
- Se mer fra S.29 i pensum (https://www.statlearning.com/)
Er det i logistisk eller line?r regresjon det er mest naturlig ? bruke mean squere error?
- Line?r.
- Med logistisk regresjon pr?ver vi ? finne riktig klasse, basert p? noe input. Siden dette er et ja nei sp?rsm?l, gir det like mye mening her ? m?le avstander, som i line?r regresjon hvor vi tilpasser en linje/plan eller lignende.
Hvilke egenskaper har sigmoidfunksjonen som gj?r den godt egnet til ? svare p? ja/nei sp?rsm?l:
- Den g?r fra 0 til 1, slik at vi kan tilegne ja og nei til 0 og 1.
- Den er glatt, vi kan alts? derivere den.
- Den forteller oss noe om sannsynligheten for ja/nei