# ---- OPPGAVE 4.2 -------------------------
import re
innfil = open('in01.txt', encoding='utf-8')
utfil = open('tokenisering.txt', 'w', encoding='utf-8')
# Regul?rt uttrykk fra oppgave 4.1
ru = r'\d+(?:[.,]\d+)?|\w+(?:-\w+)*|[^\w\s]'
filinnhold = innfil.read()
tokens = re.findall(ru, filinnhold)
for token in tokens:
utfil.write(token + '\n')
innfil.close()
utfil.close()