Forskningsbaseret videreuddannelse i it og sprog | ![]() |
![]() |
|
Informationssøgning i Lyddata."Spoken Document Retrieval", "Audio Indexing" mm. er ret nye discipliner der er vokset frem i kølvandet på mere traditionel talegenkendelsesteknologi. Motivationen er at der på Internet, i biblioteker, radio- og tv-selskaber mm. er store mængder lyddata med (fortrinsvis) tale, der kan tilgås med nogenlunde samme teknikker, som anvendes på tekstdokumenter i f.eks. søgemaskiner (Google osv.) eller i indekseringsværktøjer (værktøjer der laver ”indholdsfortegnelser” til tekster baseret på i hvor høj grad hvert afsnit adskiller sig fra det forrige afsnit).
Tid: 29. september 2006 KursusbeskrivelseKurset gennemgår de to grundlæggende teknologier bag behandling af lyddata med overvejende tale: 1) talegenkendelse vha. statistiske sprogmodeller, og 2) vector-space-modellen (et mål for ligheden mellem tekstdokumenter, mellem et sæt af søgeord og et tekstdokument eller mellem forskellige afsnit af et tekstdokument), vægtning osv. Desuden gennemgås hvilke resultater man har opnået især på engelsk-sprogede data. Det er vigtigt at understrege, at der langtfra altid kan opnås anvendelige resultater. De bedste resultater opnås på velstrukturerede data som f.eks. nyhedsudsendelser, der altid følger en veldefineret ”skabelon” (f.eks. ”Overskrifter, nyhed 1, nyhed 2 …, sport, vejret”). I modsat ende findes genrer som (overophedede) paneldiskussioner, kommenterede transmissioner af fodboldkampe mm. MålgruppeAnsatte i virksomheder / institutioner med store arkiver af audiodata (tv-selskaber, biblioteker …) KompetenceKurset vil sætte dig istand at forstå den behandlede teknologi og vurdere hvorvidt den kan anvendes på de lyddata der forefindes i din virksomhed/institution. UndervisningsformForedrag, små øvelser. Du kan tilmelde dig her. ProgramProgram følger. |
||||||||||||