Forskningsbaseret videreuddannelse i it og sprog





Logo af Det Humanistiske Fakultet, Københavns Universitet



Logo af Copenhagen Business School



AAU

Informationssøgning i Lyddata.

"Spoken Document Retrieval", "Audio Indexing" mm. er ret nye discipliner der er vokset frem i kølvandet på mere traditionel talegenkendelsesteknologi. Motivationen er at der på Internet, i biblioteker, radio- og tv-selskaber mm. er store mængder lyddata med (fortrinsvis) tale, der kan tilgås med nogenlunde samme teknikker, som anvendes på tekstdokumenter i f.eks. søgemaskiner (Google osv.) eller i indekseringsværktøjer (værktøjer der laver ”indholdsfortegnelser” til tekster baseret på i hvor høj grad hvert afsnit adskiller sig fra det forrige afsnit).

Tid: 29. september 2006
Pris: 3.200
Sted: Københavns Universitet
Kursusholder: Tom Brøndsted og NN
Tilmelding

Kursusbeskrivelse

Kurset gennemgår de to grundlæggende teknologier bag behandling af lyddata med overvejende tale: 1) talegenkendelse vha. statistiske sprogmodeller, og 2) vector-space-modellen (et mål for ligheden mellem tekstdokumenter, mellem et sæt af søgeord og et tekstdokument eller mellem forskellige afsnit af et tekstdokument), vægtning osv.

Desuden gennemgås hvilke resultater man har opnået især på engelsk-sprogede data. Det er vigtigt at understrege, at der langtfra altid kan opnås anvendelige resultater. De bedste resultater opnås på velstrukturerede data som f.eks. nyhedsudsendelser, der altid følger en veldefineret ”skabelon” (f.eks. ”Overskrifter, nyhed 1, nyhed 2 …, sport, vejret”). I modsat ende findes genrer som (overophedede) paneldiskussioner, kommenterede transmissioner af fodboldkampe mm.

Målgruppe

Ansatte i virksomheder / institutioner med store arkiver af audiodata (tv-selskaber, biblioteker …)

Kompetence

Kurset vil sætte dig istand at forstå den behandlede teknologi og vurdere hvorvidt den kan anvendes på de lyddata der forefindes i din virksomhed/institution.

Undervisningsform

Foredrag, små øvelser. Du kan tilmelde dig her.

Program

Program følger.


Valid XHTML 1.0!