24.10.2020

Korpus Spiski – możliwości nowego narzędzia badawczego

Helena Grochola-Szczepanek, Michał Woźniak, Rafał L. Górski (Instytut Języka Polskiego PAN)

W wystąpieniu przedstawimy korpus języka mówionego z polskiego Spisza. Korpus Spiski został zgromadzony i opracowany w latach 2015-2019. Zawiera około 2 mln form tekstowych. Udostępniony został publicznie pod adresem: https://www.spisz.ijp.pan.pl

Opracowanie korpusu na podstawie niestandardowego kodu wiązało się z szeregiem trudności wynikających głównie z odmienności systemu gwarowego, dużej wariantywności współczesnej mowy mieszkańców wsi, braku wypracowanego spójnego systemu zapisu (gdyż gwara istnieje w odmianie mówionej) oraz z zastosowania narzędzi informatycznych przeznaczonych do opracowania języka standardowego.

Podczas wystąpienia przypomnimy pokrótce założenia projektu, etapy prac, problemy z opracowaniem kodu niestandardowego do potrzeb korpusu oraz przyjęte rozwiązania. Uwagę skupimy na przedstawieniu możliwości zastosowania korpusu w badaniach nad językiem i kulturą wsi.