Forskningsbaseret videreuddannelse i it og sprog





Logo af Det Humanistiske Fakultet, Københavns Universitet



Logo af Copenhagen Business School



AAU

Program: Anvendt Taleteknologi 27.-28. oktober 2005

Torsdag d. 28. okt. (ved Tom Brøndsted)

Bemærk: Den første dag vil veksle mellem praktiske øvelser og korte foredrag ("køretimer" og "teoritimer", nogenlunde som når man tager kørekort). Tidspunkterne nedenfor er blot "vejledende", idet vi tager os den tid til øvelserne, som vi nu har brug for. Desuden tager vi en lille 5-10 minutters pause i timen, hvilket ikke er med i "skemaet" nedenfor.

kl. 10:00 Velkomst, præsentation, mm. Oversigt over de to kursusdage, evt. installation af genkendersoftware for deltagere der selv medbringer PC. (der serveres kaffe osv.)
kl. 10:15 Generelt om taleteknologi Hovedtyper af talegenkendere: a) Taleruafhængig, regelbaseret genkendelse med mindre ordforråd, b) Diktat vha. såkaldt statistisk grammatik. c) Andre typer. Også lidt om talesyntese (kunstig tale). Demonstration og øvelse nr 1 med regelbaseret talegenkender.
kl. 11:15 Det fonetiske alfabet (SAMPA) og de akustiske modeller : Talegenkendere arbejder typisk med et sæt akustiske modeller svarende til et endeligt antal fonetiske symboler ("lydskrifttegn"). Modellerne er "trænet" på mange talere.
kl. 11:30 Mere om grammatikken anvendt i regelbaseret genkendelse. Man kan skrive ret avancerede grammatikker ved at anvende variable, løkker mm. Øvelse nr. 2
kl. 11:45 Talesignalet og taledetektion : Der er forskel på om brugeren f.eks. via sin telefon taler til en fjernserver eller om han bruger sin PC-mikrofon og selve genkendelsen også kører på. Digitalisering af talen og taledetektion er den første komponent i enhver type talegenkender. Det kan være kritisk hvor følsom sidstnævnte er. Øvelse nr. 3.

kl. 12:00 Frokost i Universitetes kantine (er betalt via kursusgebyret!)

kl. 13:00 Non-speech-modeller. Der er akustiske modeller til håndtering af andet end "egentlig tale", f.eks. "talerstøj". Disse modeller kan bruges til "spotting" og "rejection". Øvelse nr. 4-5.
kl. 13:30 De akustiske parametre : Alle talegenkendere prøver som det første at uddrage nogle akustiske parametre eller træk af talesignalet. Det vil sige at de prøver at skære støj og individuelle kendetegn væk. De mest "primitive" genkendere arbejder direkte på disse parametre. Øvelse med programmel
kl. 13:50 Demonstration af engelsk diktatgenkender. Forskellen mellem diktatgenkendelse og genkendelse med s.k. regelgrammatik.
kl. 14:00 Grammatikkens og udtaleordbogens funktion. (der serveres kaffe) En genkender kan godt eksekvere uden grammatik og udtaleordbog (med akustiske modeller alene). Men i praksis lader det sig ikke gøre. Øvelse nr. 7-8.
kl. 14:30 Avanceret grammatikdesign. Parsing. Nå man designer lidt mere avancerede grammatikker, bliver man nødt til at "tænke grammatisk", dvs. "sætte kryds og bolle"! Grammatikken skulle meget gerne kunne bidrage ikke blot med at genkende talen, men også at forstå den. Øvelse nr. 9-10
kl. 15:00 Dårligt grammatikdesign: Det er en dårlig idé at starte en bil i tredje gear! Det erfarer man bedst ved at prøve! Øvelse nr. 11-12
kl. 15:30: Lidt om "spoken dokument retrival" (Hvis vi har tid!) Mange steder arbejder man med ny teknologi, der tillader at man søger i radioudsendelser eller lydsporene til fjernsynsudsendelser nogenlunde som man søger i web-dokumenter med f.eks. Google.
kl. 15:45-16:00: Opsummering, lidt om talesyntese, morgendagens program

Fredag d. 29. okt. kl. 9:15 - 15.30
Interaktionssystemer med tale (ved Lars Bo Larsen):

For at kunne bruge tale som interaktionsmedium i brugerflader og services er det ikke tilstrækkeligt "blot" at genkende hvad brugeren siger. Systemet må også kunne forstå meningen (det semantiske indhold) af det talte input, interagere med det bagvedliggende system og generere et passende svar til brugeren. Dette kan ofte kun lade sig gøre gennem et kendskab til den kontekst, hvori det talte skal tolkes.
9.15 - 9.45 Introduktion til tale i interaktive systemer.
9.45-10.15 Eksempler på talestyrede systemer
Fokus på den praktiske anvendelse af taleteknologi: Hvilke emner egner sig til talestyring? Eksempler på og demonstration af danske og udenlandske applikationer.
10.15-10.45 Kompleksitet, systemstyrede vs. mixed-initiative dialoger.
Paradigmer for dialogmanagement
kl. 10:45 - 11.00: Pause
kl. 11:00-12:00 Udvikling af interaktive talebaserede systemer :
Wizard of Oz prototyping til identifikation af ordforrpåd, grammatik og dialogmodel Dialogmodellering, referencer og kontekst
kl. 12:00-13:00 Frokost i Universitetes kantine
kl. 13:00-14:00 Udviklingsværktøjer og standarder (VoiceXML, SALT)
kl. 14.00-14.15 Pause
kl 14.15- 15.15 Tale sammen med andre modaliteter
Hvornpår er det formpålstjenligt at anvende tale? Problemer og faldgruber ved brug af taleteknologi. Hvad er fremtidsudsigterne?
kl. 15:15 - 15:30: Opsummering og afrunding af kurset


Valid XHTML 1.0!