04.03.2022 – DH Lunch

How Can Stylometry Identify New Genres? Metadata for the Evaluation of Stylometric Clusterings

José Calvo Tello (Göttingen State and University Library)

Większość podejść do komputerowej analizy gatunków wykorzystuje nadzorowane techniki uczenia maszynowego. Wymagają one zamkniętego i przejrzystego zestawu oznaczeń: pełnej palety gatunków. Dzięki temu wystarczy, że badacz sprawdzi rozpoznane kategorie, nie musząc samodzielnie rozpoznawać gatunków, które do tej pory mogły być przeoczone. Co zrobić, jeśli istnieją podgatunki, które nie zostały jeszcze wykryte? Jeśli celem jest odkrycie nowej kategorii, jak można to zweryfikować wykorzystując wcześniejszą wiedzę? Do ewaluacji wykrytych klastrów używam ręcznie adnotowanych metadanych literackich z Korpusu Powieści Hiszpańskiego Srebrnego Wieku (CoNSSA), który zawiera 358 pozycji z literatury hiszpańskiej (1880-1939). Zbiór ten zawiera jakościowe informacje o fabule, protagonistach, umiejscowieniu lub narratorze każdej powieści, uzyskane poprzez lekturę całej powieści lub streszczeń. Takie metadane literackie mogą być rozumiane jako pośredni etap danych między informacją językową a etykietami gatunkowymi, a zatem wspomagają identyfikację gatunków hipotetycznych, do tej pory ukrytych.

Chcących uczestniczyć w spotkaniu prosimy o zapisanie się przez formularz: https://forms.gle/4K1MJ7V9JW8MDKmq7

Informujemy, że to spotkanie nie będzie nagrywane.