Jedno słowo, by wszystkimi rządzić: działanie zanurzeń słów (word embeddings) w atrybucji autorskiej
Artjoms Šeļa i Maciej Eder (Instytut Języka Polskiego PAN)
Wraz z pojawieniem się sieci neuronowych uczenia głębokiego (deep learning) w przetwarzaniu języka naturalnego, sposoby reprezentacji danych tekstowych stały się znacznie bardziej złożone i mniej przejrzyste. Używane metody przeszły od prostego obliczania rozkładów częstotliwości słów do kontekstowych zanurzeń słów (context-aware embeddings) i generalizacji z wykorzystaniem sieci neuronowych. Te nieintuicyjne reprezentacje znalazły zastosowanie w atrybucji autorstwa, przynosząc nierzadko spektakularne wyniki, jednak lepsza skuteczność nie przybliżyła nas do zrozumienia stylu autorskiego. Właściwie nastąpiło coś przeciwnego: wyjaśnienie przyczyn, dla których pewne cechy języka mocniej zdradzają styl autorski, wydaje się dziś trudniejsze niż przed pojawieniem się nowoczesnych metod analitycznych.
Aby zrozumieć wpływ złożonych reprezentacji tekstu na atrybucję autorstwa, prezentujemy wyniki eksperymentu z wykorzystaniem prostego model zanurzeń słów, który reprezentuje słowa na podstawie ich kontekstu (czyli współwystępowania z innymi słowami w bezpośrednim sąsiedztwie). Nasz cel jest dwojaki: po pierwsze, chcemy użyć zanurzeń słów do atrybucji autorskiej i zmierzyć skuteczność tej metody. W tym celu używamy procedury „text2vec-lite”, w której każdy tekst jest reprezentowany przez wektor wartości (ciąg liczb) obliczonych na podstawie dystrybucji jednego częstego słowa względem innych słów z korpusu. Po drugie, wykorzystujemy model zanurzania słów, aby w kolejnych powtórzeniach coraz mocniej usuwać kontekst każdego z badanych słów i obserwować skuteczność tak utrudnionej atrybucji. W dalszych eksperymentach trenujemy modele pozbawione kontekstu, np. biorąc teksty z losowo przemieszaną kolejnością słów, wstawiamy do tekstu nieistniejące słowa na chybił trafił i na ich podstawie trenujemy model wektorowy, a także dokonujemy innych niewypowiedzianych okrucieństw.
Nasze wyniki pokazują, że możliwe jest całkowite usunięcie z tekstów ich warstwy semantycznej (zależnej od kontekstu) przy utrzymaniu skuteczności rozpoznana autorstwa tych tekstów. Daje nam to mocny argument, by twierdzić, że reprezentacja kontekstowa w atrybucji autorstwa pozostaje zależna od samej częstotliwości najczęściej występujących jednostek językowych. To rodzi pytania dotyczące nowoczesnych podejść do głębokiego uczenia maszynowego w stylometrii: owszem, możemy zaufać magicznej skrzynce i wrzucić do niej różnorakie zaawansowane matematycznie reprezentacje danych tekstowych, ale czy na pewno powinniśmy?
UDZIAŁ:
Spotkanie odbędzie się na żywo na platformie Zoom o godzinie 13.00. W celu uczestnictwa prosimy o wypełnienie formularza: https://forms.gle/4K1MJ7V9JW8MDKmq7 – link do spotkania zostanie przekazany uczestnikom poprzez maila na podany adres.
Informujemy, że pierwsza część spotkania (wykład) będzie nagrywana w celu późniejszego przesłania na nasz kanał YouTube. Wprawdzie nagrywane będą jedynie slajdy oraz głos prelegenta, jednak prosimy tych z Państwa którzy obawiają się przypadkowego nagrania swojego wizerunku o wyłączenie kamerek i uruchomienie ich w drugiej, dyskusyjnej, części spotkania, która nie będzie nagrywana.