5.07.2024

Krzysztof Nowak, Rafał Górski, Michał Woźniak, Dorota Mika, Wojciech Guz i Wojciech Łukasik (Instytut Języka Polskiego PAN)

Prezentacja Korpusu Mowy powstałego w projekcie Dariah.lab – cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce

Korpus Mowy to infrastruktura do tworzenia i archiwizacji danych konwersacyjnych, która powstała w ramach projektu „Cyfrowa infrastruktura badawcza dla humanistyki i nauk o sztuce” prowadzonego w latach 2020-2023 przez konsorcjum naukowe DARIAH-PL.

W ramach projektu pozyskano łącznie ponad 1 000 godzin nagrań z serwisów internetowych acast.com, newonce.net, soundcloud.com, spreaker.com i youtube.com, które zostały wykorzystane do rozwijania infrastruktury korpusowej Dariah.lab oraz udostępnione w postaci anotowanych korpusów z warstwą dźwiękową. Zbiór ten dokumentuje użycie odmiany mówionej języka polskiego z lat 2011-2020 i późniejszych.

Dane dostępne są w postaci korpusu pod adresem https://korpusmowy.ijp.pan.pl/. Publikowane na platformie korpusy składają się z dwóch warstw – dźwiękowej (nagrania) i tekstowej (transkrypcje nagrań). Przeszukiwanie nagrań odbywa się przy użyciu wyszukiwarki SpoCo. W trakcie prezentacji zaprezentujemy sposoby przeszukiwania korpusu i wykorzystywania go do badan językowych.

Wykład będzie prowadzony w języku polskim. W celu uczestnictwa wirtualnego prosimy o zapisanie się przez ten formularz: https://forms.gle/4K1MJ7V9JW8MDKmq7