Glossa – przyjazny system do przeszukiwania i wizualizacji tekstu i mowy

Michał Kosek (Universitetet i Oslo)

Glossa jest systemem do przeszukiwania jedno- i wielojęzycznych korpusów języka pisanego oraz mówionego, który oferuje zaawansowane możliwości wizualizacji, przydatne m.in. w dialektologii (geograficzna prezentacja rezultatów) i w fonetyce (interaktywna analiza mowy). Ważnym celem projektu jest stworzenie systemu przyjaznego dla użytkownika nietechnicznego oraz łatwego w instalacji. Glossa jest rozwijana w Laboratorium Tekstów (Text Laboratory) na Uniwersytecie w Oslo i dostępna wraz z kodem źródłowym bez żadnych opłat.

Zaprezentowanych zostanie kilka najciekawszych korpusów dostępnych za pomocą Glossy:
– Nordic Dialect Corpus: korpus dialektów nordyckich,
– Mandarin Audio Idiolect Dictionary: korpus tradycyjnego dialektu pekińskiego, a zarazem pierwszy na świecie słownik idiolektu w jakimkolwiek języku,
– RuN-Euro Corpus: korpus norwesko-rosyjski, rozszerzony o inne języki europejskie (w tym polski),
– korpusy dostępne zdalnie poprzez tzw. Federated Content Search.