Pracownia Digitalizacji

Fragment listu Aleksandry Piłsudskiej do Henryka Floyar-RajchmanaInstytut Józefa Piłsudskiego w Ameryce posiada największy ze wszystkich instytucji polonijnych zbiór dokumentów dotyczących historii Polski. Posiadane archiwalia stanowią jeden z najcenniejszych zbiorów dokumentów do badania historii Polski poza jej granicami.

Więcej o zasobach archiwalnych Instytutu

 

Instytut od wielu lat prowadzi digitalizację zasobów archiwalnych. W miarę postępów projekt ten uległ rozbudowie przekształacjąc się w Pracownię Digitalizacji. Zadania pracowni obejmują wszystkie etapy digitalizacji, od tworzenia procedur i instrukcji pracy do szkolenia pracowników i wolontariuszy, instalacji i aktualizacji sprzętu oraz oprogramowania, selekcji materiału, kontroli jakości pracy, obsługi i nadzoru pracowników i wolontariuszy.

Blog

Doświadczenia Instytutu w dziedzinie digitalizacji, a ogólniej w dziedzinie będącej połaczeniem technologii cyfrowych i nauk humanistycznych są przedmiotem Blogu “Humanistyka Cyfrowa”.

Blog zawiera artykuły na tematy dotyczące metodyki i praktyki digitalizacji, standardów metadanych i ich zastosowania, humanistyki cyfrowej, pracy "w chmurze" innych pokrewnych tematów. Dalsze tematy tego artykuły będą ilustrowane odpowiednimi wpisami w blogu "Humanistyka Cyfrowa".

Historia

Digitalizacja zasobów archiwalnych Instytutu rozpoczęła się w roku 2006. Archiwa Powstań ślaskich, zabezpieczone i zakonserwowane w Polsce, zostały tam zmikrofilmowane. W oparciu o skany tych mikrofilmów i początkowe dane, uruchomiliśmy pilotową stronę Powstań ślaskich. Strona jest dalej uzupełniana, z pomocą wolontariuszy internetowych którzy zdalnie opisują dokumenty. W roku 2008 rozpoczęlismy przygotowania do pracy nad systematyczną transformacją najważniejszych zasobów archiwalnych Instytutu w postac cyfrową.

Rozpoczęlismy od szkoleń i wizyt w Metropolitan New York Library Council (METRO), New York Public Library i innych lokalnych instytucjach o podobnym do naszego profilu. Szczególnie przydatna była dla projektu współpraca z METRO, którego celem jest pomoc i organizowanie szkoleń i wykładów dotyczących wszelkich aspektów pracy bibliotek, archiwów i muzeów.

Nastepnie zakupiliśmy sprzęt, skanery, komputery i zaczęliśmy tworzyć procedury i szkolić wolontariuszy. Skanowanie rozpoczęte zostało w styczniu 2009, a w lipcu 2011 ruszyła strona Archiwów online z czterema udostępnionymi w postaci cyfrowej zespołami archiwalnymi. 

Dlaczego stosujemy konwersje cyfrową? 

Przed 10 laty, kiedy rozpoczynaliśmy prace nad digitalizacją , spotykaliśmy się często z argumentami typu “Po co digitalizować - mikrofilmy wystarczą” i innymi, podajacymi w wątpliwość sens konwersji cyfrowej. Dziś, kiedy digitalizacja jest dużo bardziej popularna, jej sens nie jest już dyskusyjny. Konwersja cyfrowa pozwala nam na osiągnięcie dwóch podstawowych cełow archiwum: zabezpieczenia i udostępnienia zasobów w dużo większym zakresie niż było to możliwe przed wprowadzeniem komputeryzacji.

Procedury i proces

Procedury opracowane w Instytucie są oparte o doświadczenia innych archiwów i bibliotek, polskich i amerykańskich ale do pewnego stopnia dostosowane do naszych kolekcji archiwalnych. Mogą one być z powodzeniem stosowane w wielu archiwach które prowadzą digitalizację zasobów. Proces składa się z następujących etapów. 

      1. Przygotowanie zespołu archiwalnego

        Uporzadkowanie zespołu, podział na foldery albo jednostki archiwalne, przygotowanie pomocy archiwalnych.

      2. Paginacja

        Nadanie kolejnych numerow stron, w sposób ciągły w ramach kazdej jednostki

      3. Skanowanie

        W Instytucie skanujemy dokumenty jednolicie w rozdzielczości 600 dpi, w kolorze (24 bity) i zapisujemy obraz w formacie TIFF bez kompresji. 

      4. Kontrola i tworzenie kopii cyfrowych

        Po skanowaniu sprawdzamy jakość skanów (oryginałów cyfrowych), obrót stron i generujemy robocze kopie w formacje jpg.

      5. Selekcja dokumentów i opis (kolekcja metadanych)

        Ze strumienia stron w teczce (jednostce) nalezywybrać logicznie całe dokumenty, a następnie opisac je. Do opisu uzywamy programu DSpace skonfigurowanego do naszych potrzeb. 

      6. Obieg rekordów (workflow)

        Opisane dokumenty podlegaja dwu-stopniowej kontroli zanim trafią do repozytorium.

      7. Prezentacja

        Gotowe dokumenty są eksportowane z DSpace i przenoszone na stronę Archiwów Online

Procedury digitalizacji stosowane w Instytucie Piłsudskiego

 

 

Szczegóły techniczne skanowania (rozdzielczość, głebokośc koloru, format pliku itp.) zostały wybrane w oparciu o doświadczenia innych archiwów. Większosć dokumentów skanujemy w rozdzielczości 600 dpi, w 24 bitowym kolorze i zapisujemy w formacie tiff bez kompresji. Wyjątki dotyczą zdjęć i innych obiektów o nietypowych wymiarach.

Pytanie o skalę opisu (głebokość, szczegółowość), o to jak wiele czasu poświęcać na zbieranie metadanych dokumentów było i jest szeroko dyskutowane w kręgach archiwistów. Naszym celem jest uzyskanie podstawowej ‘znajdywalności’ dokumentu, ale nie dokonanie pełnego opisu archiwalnego. 

Metadane

Metadane, albo “dane o danych” są bardzo ważnym elementem opisu dokumentów. Nadanie opisowi struktury (np. “autor = Józef Piłsudski”) pozwala na efektywną obróbke danych przez komputery i odnajdywanie informacji w bazach danych i w Internecie. W naszej pracy stosujemy głownie dwa z standardy metadanych, EAD i Dublin Core, z własnymi uzupełnieniami.

Sprzęt i oprogramowanie

Początkowy zestaw sprzętu kupilismy dzięki grantowi z Polsko-Słowiańskiej Unii Kredytowej. Na sprzęt składały się: skanery, komputery do obsługi skanerów i do opisywania dokumentów, oraz serwer NAS do zapisu plików skanów. Do opisu stosujemy program Otwartego Oprogramowania, szeroko stosowany DSpace, który pozwala na dużą elastyność w konfiguracji dla potrzeb archiwum.

W trakcie pracy zdobylismy wiele dowiadczeń, m.in obalając mit o kosztownym sprzęcie do digitalizacji. Okazało się, że największym kosztem jest praca ludzi, skanowanie, opisywanie i kontrola, sam sprzęt ma tylko niewielki udział w kosztach. 

Wolontariusz cyfrowy

W projekcie Powstań Śląskich zastosowalismy ideę crowdsourcing i rozdzieliliśmy pracę pomiędzy rzeszę wolontariuszy internautów. Praca nad opracowaniem tego rozległego archiwum jest jeszcze w toku, ale dzięki stałemy przypływowi wolontariuszy, którzy pracują w zaciszu własnego domu, zebraliśmy juz ponad 55 tysięcy rekodordów, które systematycznie dodawane sa do strony Powstań śląskich. 

Współpraca

Przy tworzeniu programu digitalizacji Instytut korzystał i korzysta z doświadczeń polskich archiwistów (Naczelna Dyrekcja Archiwów Państwowych, Instytut Pamięci Narodowej) jak i lokalnych instytucji archiwalnych i bibliotecznych w metropolii nowojorskiej. Dzielimy się też naszymi doświadczeniami z innymi archiwami. Archiwum Instytutu Józefa Piłsudskiego w Londynie i Muzeum w Rapperwkilu opracowuje i udostępnia zasoby we współpracy z nami i/lub w oparciu o nasze procedury. 

Kolekcje Online w Instytucie Józefa Piłsudskiego w Londynie
Kolekcje Online w Muzeum Polskim w Raperswilu

 

 

Wikipedia i GLAM

Ważnym zadaniem archiwum jest zapewnienie szerokiego dostępu i popularyzacja wiedzy o żródłach historycznych. Jako jedna z wielu instytucji GLAM (Galleries, Libraries, Archives, Museums) rozpoczęlimy współpracę z najwiekszą encyklopedią internetową,  Wikipedią. Przyjęliśmy na staże rezydentów - Wikipedystów, oraz przkazaliśmy Wikipedii wybrane zdigitalizowane zasoby archiwalnych, co pozwala na łatwe wykorzystanie oryginalnych dokumentów w artykułach w Wikipedii w wielu językach. 

Więcej o pracy wikipedystów i jej wynikach mozna przeczytać na stronie Wikiprojektu: Wikipedia:GLAM/Józef Piłsudski_Institute_of_America
PARTNERZY
Ministerstwo Kultury
Biblioteka Narodowa
Naczelna Dyrekcja Archiwów Państwowych
Konsulat RP w NY
Fundacja na rzecz Dziedzictwa Narodowego
PSFCU
NYC Department of Cultural Affairs