|
|
Program: Anvendt Taleteknologi 27.-28. oktober 2005
Torsdag d. 28. okt. (ved Tom Brøndsted)
Bemærk: Den første dag vil veksle mellem
praktiske øvelser og korte foredrag ("køretimer" og "teoritimer", nogenlunde som når
man tager kørekort). Tidspunkterne nedenfor er blot "vejledende",
idet vi tager os den tid til øvelserne, som vi nu har brug for.
Desuden tager vi en lille 5-10 minutters pause i timen, hvilket ikke er med
i "skemaet" nedenfor.
kl. 10:00 Velkomst, præsentation, mm. Oversigt over de to kursusdage,
evt. installation af genkendersoftware for deltagere der selv medbringer PC.
(der serveres kaffe osv.)
kl. 10:15 Generelt om taleteknologi
Hovedtyper af talegenkendere:
a) Taleruafhængig, regelbaseret genkendelse med mindre ordforråd,
b) Diktat vha. såkaldt statistisk grammatik.
c) Andre typer. Også lidt om talesyntese (kunstig tale).
Demonstration og øvelse nr 1 med regelbaseret
talegenkender.
kl. 11:15 Det fonetiske alfabet (SAMPA) og de akustiske modeller :
Talegenkendere arbejder typisk med et sæt akustiske modeller svarende til
et endeligt antal fonetiske symboler ("lydskrifttegn").
Modellerne er "trænet" på mange talere.
kl. 11:30 Mere om grammatikken anvendt i regelbaseret genkendelse.
Man kan skrive ret avancerede grammatikker ved at anvende variable, løkker mm.
Øvelse nr. 2
kl. 11:45 Talesignalet og taledetektion :
Der er forskel på om brugeren f.eks. via sin telefon
taler til en fjernserver eller om han bruger sin
PC-mikrofon og selve genkendelsen også
kører på. Digitalisering af talen
og
taledetektion er den første komponent
i enhver type talegenkender. Det kan være kritisk
hvor følsom sidstnævnte er. Øvelse nr. 3.
kl. 12:00 Frokost i Universitetes kantine (er betalt via kursusgebyret!)
kl. 13:00 Non-speech-modeller. Der er akustiske modeller til håndtering
af andet end "egentlig tale", f.eks. "talerstøj". Disse modeller kan bruges til "spotting" og "rejection".
Øvelse nr. 4-5.
kl. 13:30 De akustiske parametre : Alle
talegenkendere prøver som det første at
uddrage nogle akustiske parametre eller træk
af talesignalet. Det vil sige at de prøver at
skære støj og individuelle kendetegn
væk. De mest "primitive" genkendere arbejder direkte
på disse parametre. Øvelse med programmel
kl. 13:50 Demonstration af engelsk diktatgenkender.
Forskellen mellem diktatgenkendelse og genkendelse med s.k.
regelgrammatik.
kl. 14:00 Grammatikkens og udtaleordbogens funktion. (der serveres kaffe)
En genkender kan godt
eksekvere uden grammatik og udtaleordbog (med akustiske modeller alene).
Men i praksis lader det sig ikke gøre.
Øvelse nr. 7-8.
kl. 14:30 Avanceret grammatikdesign. Parsing. Nå man
designer lidt mere avancerede grammatikker, bliver man nødt
til at "tænke grammatisk", dvs. "sætte kryds og bolle"!
Grammatikken skulle meget gerne kunne bidrage ikke blot med at
genkende talen, men også at forstå den.
Øvelse nr. 9-10
kl. 15:00 Dårligt grammatikdesign: Det er en dårlig idé
at starte en bil i tredje gear! Det erfarer man bedst ved at prøve!
Øvelse nr. 11-12
kl. 15:30: Lidt om "spoken dokument retrival" (Hvis vi har tid!)
Mange steder arbejder man med ny teknologi, der tillader at man søger
i radioudsendelser eller lydsporene til fjernsynsudsendelser nogenlunde
som man søger i web-dokumenter med f.eks. Google.
kl. 15:45-16:00: Opsummering, lidt om talesyntese, morgendagens program
Fredag d. 29. okt. kl. 9:15 - 15.30
Interaktionssystemer med tale (ved Lars Bo Larsen):
For at kunne bruge tale som interaktionsmedium i brugerflader og services er det ikke
tilstrækkeligt "blot" at genkende hvad brugeren siger. Systemet må også kunne forstå
meningen (det semantiske indhold) af det talte input, interagere med det
bagvedliggende system og generere et passende svar til brugeren.
Dette kan ofte kun lade sig gøre gennem et kendskab til den kontekst, hvori det talte skal tolkes.
- 9.15 - 9.45 Introduktion til tale i interaktive systemer.
- 9.45-10.15 Eksempler på talestyrede systemer
- Fokus på den praktiske anvendelse af taleteknologi: Hvilke
emner egner sig til talestyring? Eksempler på og
demonstration af danske og udenlandske applikationer.
- 10.15-10.45 Kompleksitet, systemstyrede vs. mixed-initiative dialoger.
- Paradigmer for dialogmanagement
- kl. 10:45 - 11.00: Pause
- kl. 11:00-12:00 Udvikling af interaktive talebaserede systemer :
- Wizard of Oz prototyping til identifikation af ordforrpåd, grammatik og dialogmodel
Dialogmodellering, referencer og kontekst
- kl. 12:00-13:00 Frokost i Universitetes kantine
- kl. 13:00-14:00 Udviklingsværktøjer og standarder (VoiceXML, SALT)
- kl. 14.00-14.15 Pause
- kl 14.15- 15.15 Tale sammen med andre modaliteter
- Hvornpår er det formpålstjenligt at anvende tale? Problemer og faldgruber ved brug af taleteknologi. Hvad er fremtidsudsigterne?
- kl. 15:15 - 15:30: Opsummering og afrunding af kurset
|