Fakultatywnie – Zaproszenie na seminarium naukowe IJP UW
Streszczenie
Podczas wystąpienia zostaną przedstawione założenia i status realizowanego projektu o nazwie RetroDict, którego celem jest stworzenie repozytorium zdigitalizowanych słowników w ramach jednolitej struktury leksykograficznej. Projekt został zainicjowany, aby ułatwić badania zarówno leksyki historycznej – przede wszystkim specjalistycznej – jak i samych słowników jako gatunku tekstów w kontekście parastylometrycznym. Osiągnięte zostanie to poprzez opracowanie interfejsu, z którym komunikacja będzie możliwa zarówno dla ludzi, jak i maszyn.
Dotychczasowe badania diachroniczne w zakresie metaleksykografii i leksykologii były poważnie ograniczone ze względu na brak kompleksowych rozwiązań pozwalających na automatyzację procesu z jednej strony, a brak odpowiednio opracowanego materiału z drugiej. Projekt RetroDict ma na celu rozwiązać ten problem poprzez digitalizację i integrację kilkuset słowników obejmujących ponad 20 języków i obejmujących około 100 dziedzin działalności człowieka: nauki, przemysłu, handlu, technologii, inżynierii, rzemiosła, prawa, sportu, sztuki i mody.
Omówione zostaną zarówno teoretyczne, jak i techniczne aspekty przedsięwzięcia. Metody badawcze obejmują przegląd literatury, rozważania teoretyczne, a także praktyczną egzemplifikację przekształceń danych.
Z perspektywy teoretycznej omówione zostaną takie kwestie, jak kryteria selekcji słowników, struktura dostępu, oraz zawartość relewantnych językoznawczo danych. Szczególny nacisk zostanie położony na problematykę prezentacji informacji w słownikach historycznych oraz sposobu separacji treści od formy. Spośród aspektów technicznych natomiast zaprezentowane zostaną ręczne i automatyczne metody pozyskiwania i konwersji danych, w tym optyczne rozpoznawanie znaków, wyrażenia regularne i własny zestaw narzędzi.
Na koniec zaprezentowane zostaną możliwe zastosowania platformy RetroDict, a unifikacja zasobów leksykograficznych zostanie zaproponowana jako alternatywa względem korpusów językowych, zarówno pod względem opłacalności, jak i oferowanych warstw informacji językowej.