OpenRefineZbieranie metadanych podczas digitalizacji zasobów archiwalnych nie jest prostym zajęciem. Nazwy miejsc, wydarzeń, nazwiska osób wymienianych w dokumentach często różnią się od dzisiejszej pisowni. Nazwy mają różne wersje, aliasy, w dokumentach pojawiają się literówki itp. Co prawda nowoczesne przeszukiwarki jak Google często potrafią rozpoznać często spotykane literówki - jeśli wpiszemy “Kowakski” otrzymamy:

Pokazane są wyniki dla Kowalski
Szukaj zamiast tego Kowakski,

ale działa to najlepiej dla często spotykanych nazw czy imion i dla błędów. W projekcie, w którym chcielibyśmy przedstawić dane jako Linked Open Data, ważne jest mieć czyste dane, bez błędów i z zidentyfikowanymi wersjami, jeśli takie istnieją.

Jako przykład weźmiemy nazwiska (zbieramy także nazwy miejsc, wydarzeń historycznych i inne). Samo imię i nazwisko zwykle nie identyfikuje osoby - może być wiele osób o takim samym imieniu i nazwisku. Kiedy już zidentyfikujemy osobę, często okazuje się, że jej nazwisko występuje w wielu wariantach. Są wersje w różnych językach, osoba mogła używać pseudonimu, przydomka, zmienić nazwisko (przed albo po małżeństwie), dodać tytuły itp. Poddani i obywatele często używają przydomka dla określenie swoich przywódców. Jak znaleźć się w tej gmatwaninie?

Dla osób wymienionych w dokumentach archiwalnych wybraliśmy kilka prostych reguł. Sa one nieco arbitralne, ale służa nam dobrze:

  1. Używamy jednego standardowego imienia i nazwiska dla jednej osoby. Nazwiska alternatywne, wersje w innych językach itp. są notowane także, aby ułatwić wyszukiwanie. Używamy wersji polskiej nazwiska, jeśli to możliwe, i wersji używanej w Wikipedie (polskiej lub w innym języku) jeśli jest to stosowne.

  2. Zapisujemy dane osoby jako “nazwisko, imię (imiona)” w tej kolejności. Nawet ta prosta reguła powoduje czasem trudności, gdyż nie zawsze jest łatwo określić, która część jest imieniem a która nazwiskiem. Wyjątkiem od tej reguły są osoby publiczne takie jak królowie, papieże itp. Dla których podajemy popularne lub oficjalne brzmiene (Mieszko I, Jan Paweł II itp.)

  3. Przypisujemy każdej osobie unikalny identyfikator który generujemy sami. O potrzebie używania unikalnych identyfikatorów mozna więcej przeczytać w blogu, Jeśli to możliwe, korelujemy ten identyfikator z dwoma popularnymi (i w miarę trwałymi) rejestrami: Wikidanymi i VIAF. Spotykamy jednak osoby, o których nikt nie napisał artykułu w Wikipedii w żadnym języku, i w konsekwencji brak im identyfikatora Wikidata. Są osoby które nigdy nie napisały książki i brak jest ich w rejestrze VIAF, który zbiera dane z bibliotek narodowych świata. Dla nich tworzymy krótki opis, dodajemy odnośniki i jak dla innych tworzymy nasz identyfikator.

Następnym etapem jest sprawdzenie zebranych zapisów nazwisk (w chwili obecnej mamy ich ok 80 tysięcy) i doprowadzenie ich do standardu. Pracujemy w sekcjach, typowo z danymi jednej kolekcji archiwalnej, ale i tak są to dziesiątki tysięcy rekordów. Można użyć uniwersalne narzędzie - arkusz rozliczeniowy - i wykorzystując takie funkcje jak sortowanie, filtrowanie, wyszukiwanie i zastępowanie wykonać dużą część pracy, Znaleźliśmy jednak bardziej wyspecjalizowany program - OpenRefine - który okazał się być o wiele bardziej przydatny dla wykonania tego zadania. OpeRefine (rozprowadzany jako otwarte oprogramowanie) wyrósł z projektu Google, nazywany wtedy Google Refine (mocno związany z nieistniejącym już projektem Freebase1) i został oddany społeczności otwartego oprogramowania która dalej go udoskonala. OpenRefine został stworzony specjalnie do zadania czyszczenia i udoskonalenia danych.

Zapraszamy na na wykład połączony z promocją książek dr. hab. Piotra Kardeli pt. „Stowarzyszenie Polskich Kombatantów w Stanach Zjednoczonych”. 20 czerwca (wtorek) o godz. 18:00

Stowarzyszenie Polskich Kombatantów, polsko-amerykańska organizacja działająca w latach 1952-2012, zrzeszająca byłych żołnierzy Polskich Sił Zbrojnych na Zachodzie podczas drugiej wojny światowej. Należała do Światowej Federacji Stowarzyszenia Polskich Kombatantów. Jednym z osiągnięć SPK w Stanach Zjednoczonych było skłonienie amerykańskiego Kongresu do uchwalenia Polish Veterans Rights Legislation, aktu podpisanego przez prezydenta Geralda F. Forda w roku 1976. Prawo to dało polskim byłym żołnierzom przywilej hospitalizacji w szpitalach weteranów.

Digitalizacja każdego zespołu archiwalnego jest procesem złożonym. Skanowanie jest tylko jednym, i to nie najbardziej pracochłonnym etapem. Praca nad digitalizacją zespołu Adiutantura Generalna Naczelnego Wodza trwała kilka lat; złożyło się na nią wiele etapów, pracowało nad tym zadaniem wiele osób i wykorzystane zostały fundusze z wielu źródeł.

Pierwszym etapem było opracowanie i opisanie archiwum w systemie informacji archiwalnej (początkowo Iza-Sezam, a obecnie w standarcie EAD). Pracowali nad tym stażyści z Naczelnej Dyrekcji Archiwów Państwowych: Paweł Pietrzyk i Dorota Kotowicz.

W następnym etapie należało uporządkować (w miarę potrzeby) zespół, i przypisać każdej zapisanej stronie kolejny numer w ramach jednostki archiwalnej. Ten proces, zwany paginowaniem, w całości wykonała Barbara Lech, wieloletni współpracownik i wolontariuszka Instytutu.

Skanowanie, jak również sprawdzanie i w miarę potrzeby obrót stron jest zadaniem prostym ale wymagającym skupienia i dokładności. Skanowali ten zespół archiwalny wolontariusze i stażyści z wielu instytucji w Polsce i w USA: Anna Biesiadecka, Bożena Blacha, Agnieszka Brissey, Ian Brissey, Piotr Broda, Kuba Dardzinski, Adriana Georgiou, Jarek Hasiak, Ireneusz Jackiewicz, Tomasz Jopek, Milena Kalczyńska, Dorota Krimmel, Zbigniew Król, Olivia Kusio, Olivia Lesniewski, Monika Łukawska, Maciej Marciniak, Paweł Oskroba, Julia Pienkowska, Natalie Pienkowska, Leszek Pitula, Władysław Polkosnik, Anna Poślednik, Alicja Rak, Jarek Rybak, Agata Sobczak, Joanna Sokołowska, Adam Staszczuk, Emily Sujka, Kewin Swietlikowski, Włodzimierz Szlahusek, Irena Trzcionkowska, Michelle Warunek, Łukasz Wieczorek, Bernard Witek i Maximilian Witek.

Zbieranie metadanych albo indeksowanie dokumentów to najbardziej pracochłonna część procesu. Metadane pomagają znaleźć szukany dokument wśród setek tysięcy innych. Pracę tę wykonywali stażyści, załoga i współpracownicy Instytutu: Agnieszka Brissey, Andrzej Józef Dąbrowski, Anna Miszczyk, Ewa Wójcicka, Iwona Ciok, Iwona Korga, Joanna Kozak, Joanna Sokołowska, Joanna Zielińska, Kasia Adamow, Magda Kapuscińska, Milena Kalczyńska, Paweł Zielony, Tomasz Szpil i Zbigniew Król.

Zespół: “Adiutantura Generalna Naczelnego Wodza” jest szczególnie bogaty w mapy i szkice, rozkazy bojowe, pozycje i ruchy frontów. Mapy wymagają specjalnych narzędzi do skanowania i prezentacji. Proces tworzenia skanów dużych map został opracowany przez Marka Zielińskiego, urządzenie do skanów zostało zbudowane przez Włodzimierza Szlahuska, który początkowo skanował mapy. Dalsza pracę skanowania i zszywania map wykonały Emily Sujka i Emilia Piziak.

W zdigitalizowanych dokumentach wymieniane były często osoby i miejsca (a także daty). Jako część osobnego projektu Ontologii Zasobów Instytutu Piłsudskiego i przedstawienia ich jako Linked Open data, zidentyfikowano wiele ważnych osób i miejsc przewijających się przez te dokumenty. Tak zidentyfikowane osoby i miejsca są wyróżnione w opisie dokumentów na stronie i prowadzą do dodatkowej o nich informacji. W projekcie tym pracują Andrzej Józef Dąbrowski, Tomasz Kalata, Joanna Zielińska i Marek Zieliński.

Projekt digitalizacji zasobów jest prowadzony pod kierownictwem Marka Zielińskiego i pod opieką merytoryczną i archiwalną Iwony Korgi, która zajmuje się także kontrolą zawartości opisów i workflow całego procesu.

Praca nie byłaby powszechnie dostępna w Internecie bez efektywnej prezentacji na stronie internetowej, której autorką jest Justyna Dziuma z firmy 3W Serwisy Informacyjne z Gliwic.

Projekt ten, na który składa się digitalizacja zasobu, opracowanie map oraz ontologia, nie mogłyby się odbyć bez pomocy finansowej. Polsko Słowiańska Unia Kredytowa od początku projektu digitalizacji zasobów Instytutu służyła nam pomocą przy zakupie sprzętu do pracy, skanowania i  długo-terminowego bezpiecznego przechowywania zasobów. Jestesmy także wdzięczni indywidualnym darczyńcom którzy odpowiadali na nasze apele i wspomagali nas finansowo w chudych latach. Ogromną pomocą były granty i pomoc rzeczowa w postaci przesyłanych archiwistów i innych fachowców, których doświadczyliśmy od instytucji w Polsce: Senatu RP, Ministerstwa Spraw Zagranicznych i Konsulatu Generalnego RP w Nowym Jorku, Ministerstwa Kultury i Dziedzictwa Narodowego, Naczelnej Dyrekcji Archiwów Państwowych i Instytutu Pamięci Narodowej.

PARTNERZY
mkidn
bn
senat
ndap
msz
dn
psfcu
nyc