06.10.2023

Obliczanie podobieństwa tekstu w dużych zbiorach fińskiej ustnej poezji ludowej 

Maciej Janicki (University of Helsinki)

Maciej Janicki realizuje staż podoktorski na Uniwersytecie w Helsinkach. Doktorat z informatyki uzyskał w 2019 roku na Uniwersytecie w Lipsku, składając pracę na temat nienadzorowanego uczenia maszynowego w badaniu morfologii. Aktualnie jego głównymi zainteresowaniami badawczymi są nienadzorowane i statystyczne metody przetwarzania niestandardowych danych językowych.

Abstrakt:

W tym wykładzie zaprezentuję zastosowanie metod obliczeniowych do wykrywania podobieństwa tekstualnego na przykładzie dużego, liczącego ponad 280 000 tekstów, korpusu fińskiej ustnej poezji ludowej, stworzonego ze zbiorów archiwalnych Finlandii i Estonii. Korpus powstał poprzez połączenie kilku istniejących dużych kolekcji w ramach projektu Akademii Finlandii „Formulaic intertextuality, thematic networks and poetic variation across regional cultures of finnic oral folk poetry” (FILTER), konsorcjum, w skład którego wchodzą badacze z Fińskiego Towarzystwa Literackiego, Uniwersytetu Helsińskiego i Estońskiego Muzeum Literackiego.

Komputerowe wykrywanie podobieństwa tekstu na poziomie od pojedynczych wierszy do całych tekstów daje wyniki, które można wykorzystać w trójnasób. Po pierwsze, umożliwiają one wielkoskalowe ilościowe spojrzenie na zbiory. Po drugie, wspomagają badania jakościowe, pokazując relacje podobnych i pokrewnych tekstów, pomagając w ten sposób badaczowi odkryć wszystkie materiały, które mogą być potencjalnie istotne dla przeprowadzenia ukierunkowanego badania. Po trzecie, dostarczają dodatkowych kryteriów, według których można kwerendować zbiory, pozwalając na eksplorację ich mniej znanych części. Zilustruję te przypadki użycia przykładami z projektu, który obecnie prowadzimy.

W celu uczestnictwa wirtualnego prosimy o zapisanie się przez ten formularz: https://forms.gle/4K1MJ7V9JW8MDKmq7