09.04.2021

Automatyczny system rozpoznawania pisma odręcznego (HTR) na potrzeby polskich źródeł leksykograficznych

Jan Idziak, Artjoms Šeļa, Michał Woźniak, Albert Leśniak, Joanna Byszuk, Maciej Eder (Instytut Języka Polskiego PAN)

W naszym projekcie pokazujemy efekty pracy nad automatycznym systemem rozpoznawania dużych zbiorów ręcznie zapisywanych indeksów (tzw. fiszek), służących za źródła do opracowania wielotomowych słowników, baz bibliograficznych, katalogów zabytków i innych źródeł, które korzystają z indeksów kartkowych. Nasz system opiera się na najnowszych dokonaniach w dziedzinie rozpoznawania pisma odręcznego (HTR), został jednak uzupełniony o dodatkowe moduły oparte na sztucznej inteligencji, dzięki którym zyskujemy możliwość odczytywania, po pierwsze, tylko wybranych elementów kartek magazynowych (np. tylko główki hasła), a po drugie tekstów w języku polskim. W naszej pracy wykorzystaliśmy kartotekę „Słownika polszczyzny XVII i 1. poł. XVIII wieku”, a także zbiór danych syntetycznych, mianowicie 20,000 słów w języku polskim wygenerowanych losowo i naśladujących pismo odręczne, tak żeby system sztucznej inteligencji „nauczyć” lepszego rozpoznawania polszczyzny. Zbiór ten może być wykorzystany na potrzeby przyszłych zastosowań opartych o sieci neuronowe.

UDZIAŁ:

Spotkanie odbędzie się na żywo na platformie Zoom o godzinie 13.00. W celu uczestnictwa prosimy o wypełnienie formularza: https://forms.gle/4K1MJ7V9JW8MDKmq7 – link do spotkania zostanie przekazany uczestnikom poprzez maila na podany adres.

Informujemy, że pierwsza część spotkania (wykład) będzie nagrywana w celu późniejszego przesłania na nasz kanał YouTube. Wprawdzie nagrywane będą jedynie slajdy oraz głos prelegenta, jednak prosimy tych z Państwa którzy obawiają się przypadkowego nagrania swojego wizerunku o wyłączenie kamerek i uruchomienie ich w drugiej, dyskusyjnej, części spotkania, która nie będzie nagrywana.