Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Przy omawianiu zderzenia nauk bibliotecznych, archiwistycznych itp. z komputeryzacją i Internetem, centralne miejsce zajmują metadane i sposób ich wyrażania. Metadane to dane o danych, opisy, wyciągi, oznakowania, indeksy, katalogi itp. Ten artykuł jest wstępem do dyskusji i omówienia różnych aspektów metadanych i ich zastosowań.

Dlaczego w ogóle potrzebne są nam metadane? Najprostszą odpowiedzią jest “dlatego, że komputery są raczej nierozgarnięte”. Niech nas nie zmyli fakt, że umieją grać w szachy lepiej od ludzi - to jest zadanie względnie proste w porównaniem ze zrozumieniem języka naturalnego. Ale mimo tego, że są nierozgarnięte, komputery są w stanie przetworzyć dużo więcej informacji w dużo krótszym czasie niż mózg człowieka, więc jest w naszym interesie tlumaczyć zdania języka naturalnego na język zrozumiały przez komputery.

Krótka wymiana zdań, zrozumiała przez rozmówców, np. “Jurek, znajomy mojego wuja, urodził się w Bielsku w latach piećdziesiątych” jest dla komputera zupełnie nie do odcyfrowania. Nie jest w stanie zidentyfikować Jurka, mnie, mojego wuja, Bielska ani też daty. Aby to było możliwe, trzeba biedakowi trochę pomóc.

Zanim przejdę do szczegółów, krótkie wprowadzenie dwóch pojęć które będą nam dalej przydatne: składnia albo syntaktyka, i semantyka (powiązana z ontologią). Składnia to zestaw reguł (w miarę możności ściśle zdefiniowanych) jakimi posługuje się jakiś język. Semantyka (a w jej rozszerzeniu ontologia) dodaje ‘znaczenie’ - zajmuje się nie tym, jak zdanie jest zbudowane, ale tym, co ono znaczy. Języki naturalne posiadają obie cechy, często mocno ze sobą splątane. W konstrukcji języków komputerowych te dwa elementy są zwykle łatwe do rozdzielenia. Na przykład zdanie z języka BASIC

FOR i = 1 to 12 STEP 2
PRINT i
NEXT

ma bardzo ściśle określoną składnię z pewnymi opcjami, np. STEP 2 można opuścić, ale NEXT jest wymagane. Znaczenie, czyli semantyka, to działanie tego programu w komputerze, który dokona pewnych operacji: przyjmie dla zmiennej i wartość 1, wykona polecenie w drugiej linijce (wydrukuje wartość i), a po dotarciu do polecenia NEXT powróci do początku, powtarzając proces z wartością i = 1+2 itp. Można powiedzieć, że komputer ‘rozumie’ znaczenie tego zdania.

zosia-atomSeminarium pod tytułem “ZoSIA vs. AtoM. Dwa systemy do zarządzania zasobem archiwalnym” które odbyło się w Warszawie w dniach 23 i 24 stycznia 2013 jest ciekawym dla obserwatora z zewnątrz spojrzeniem na ewolucyjną drogę, jaka idą archiwa w komputeryzacji katalogów zasobów archiwalnych. W odróżnieniu od biblioteki, która posługuje się standardowymi narzędziami komputerowymi od ponad 40 lat, archiwum dopiero względnie niedawno weszło na drogę standaryzacji. Potrzeba zmusiła organizacje archiwalne do tworzenia narzędzi, wczesne ich użycie pozwoliło na szybką komputeryzacje procesu inwentaryzacji zasobów, a szerokie użycie utrudnia do dziś zmiany i ewolucje. Tak powstały programy SEZAM i IZA które z dużym powodzeniem służyły archiwstom. Nie oparte na standartach wymiany danych (takich jak EAD) i oparte na przestarzałą juz dziś technologie, spełniły jednak bardzo ważna funkcję wprowadzenia dość jednolitego systemu do polskiej archiwistyki (i przez przedłużenie do tych archiwów polonijnych które zdecydowały sie na komputeryzację).

Nazwy tych programów należą do kategorii skrótowców (akronimów). IZA to Inwentarze Zespołow Archiwanych (pracuje dobrze z kolegą, SEZAM-em - Skomputeryzowaną Ewidencją Zasobów Archiwalnych). ZoSIA to Zintegrowany System Informacji Archiwalnej, a ICA-AtoM to Access to Memory Międzynarodowej Rady Archiwów (ICA). Wspomniany EAD to też skrótowiec - Encoded Archival Description, standard zapisu archiwalnego który od roku 1995 dostarcza archiwistom podstawy kodowania informacji o archiwach.

W zamierzchłych czasach, kiedy żyliśmy w wioskach, kontekst wystarczał do rozwikłania niejednoznaczności w języku, a w szczególności homonimów. Słowa takie jak zamek, bałwan, para, bal albo rakieta muszą być użyte w kontekscie aby były zrozumiałe (jaki obiekt przychodzi Ci na myśl, kiedy głośno wypowiesz słowo “zamek”?). Globalizacja informacji, szczególnie po powstaniu Internetu, wymaga szczególnej staranności w definiowaniu kontekstu. W powieści “Tajemniczy ogród” Frances Hodgson Burnett, występuje ptaszek, “robin”, albo po polsku rudzik. W USA “robin”, to zupełnie inny ptak, drozd wędrowny i wszyscy czytelnicy tej książki w Stanach Zjednoczonych sa wprowadzeni w błąd. Użycie słowa “football” na określenie zupełnie różnych sportów w różnych częsciach świata prowadzić może tylko do śmiesznych nieporozumień, użycie słowa bilion, które czasem znaczy tysiąc milionów, a czasem milion milionów (zależnie do miejsca i czasu) może prowadzić do poważnych już konsekwencji, szczególnie finansowych.

W języku naturalnym niejednoznaczność jest przyprawą, smakiem - bez niej nie było by insynuacji, niedopowiedzeń, podtekstów, poezji. Ale w naukach, zarówno ścisłych jak i humanistycznych, niejednoznaczność jest trucizną wiedzy, i musi być bardzo starannie unikana. W roku 1735 Karol Linneusz opublikował “Systema Naturae”, pierwszą sytematyczną próbę wprowadzenia jednolitego nazewnictwa w biologii. W roku 1782 Louis-Bernard Guyton de Morveau opublikował rekomendacje jednolitego nazewnictwa chemicznego. Obie te publikacje były tylko początkiem bardzo złożonych (i ciągle ulepszanych), działajacych obecnie systemów nazewnictwa w biologii i w chemii. Podstawowym językiem - lingua franca - tych systemów jest łacina w przypadku klasyfikacji biologicznej i angielski w chemii, a nazwy w innych językach sa tylko (mniej lub bardziej jednoznacznymi) tłumaczeniami.

Deklaracja uczestników konferencji “Pamięć Świata w Wieku Cyfrowym: Digitalizacja i Konserwacja”, która odbyła sie w Vancouver we wrześniu 2012 została niedawno opublikowana. Jest to krótki, czterostronicowy dokument podkreślający ważne w opinii uczestników konferencji  (ponad 500 uczestników z 110 krajów) czynniki wpływające na dwa głowne aspekty dotyczące rekordów, dokumentów i danych w otoczeniu cyfrowym: digitalizacji materiałów w postaci analogowej, oraz dostępu, ciągłości i konserwacji zasobów cyfrowych.

Deklaracja rozpoczyna się przypomnieniem Artykułu 19 Powszechnej Deklaracji Praw Człowieka uchwalonej przez ONZ w 1948 roku: “Każdy człowiek ma prawo wolności opinii i wyrażania jej; prawo to obejmuje swobodę posiadania niezależnej opinii, poszukiwania, otrzymywania i rozpowszechniania informacji i poglądów wszelkimi środkami, bez względu na granice.” (patrz Wikisource). Obywatele wyrażaja to prawo kiedy sięgają po informacje w postaci cyfrowej. Wiarygodność i integralność dziedzictwa dokumentalnego i systemów dokumentalnych jest więc warunkiem korzystania z tego prawa.

Prawo autorskie ma ogromne znaczenie dla rozpowszechniania dóbr kultury i nauki, w tym zasobów archiwalnych. Jednocześnie trudno znaleźć prawo, które byłoby bardziej zawiłe, niejasne, wewnętrznie sprzeczne i działające wstecz. Prawo autorskie w większości krajów coraz bardziej rozchodzi sie z rzeczywistością i powszechnym użyciem Internetu jako medium dostępu do dóbr kultury.

Problemy z prawem autorskim są wielorakie, to jest temat na większą rozprawę, tutaj tylko kilka przykładów dla ilustracji zakresu problemu. Biblioteki i archiwa mogą legalnie udostępniać każdemu zasoby - książki, dokumenty, czasopisma … ale tylko na miejscu. Zdalne oglądanie tego samego dokumentu jest zabronione przez prawo (chyba, że dokument ma ponad 120 lub więcej lat). Prawo autorskie nie zabrania dostępu, tylko ten dostęp utrudnia, stanowi równoważnik piasku sypanego w tryby maszyny przepływu informacji

Podobnie jest z domowym użyciem mediów. Każdy (w USA) może sobie legalnie zrobić kopie zapasową filmu (np. kupionego DVD), ale nie może legalnie wykonać kopii pliku zawierającego ten film na DVD (Digital Millennium Copyright Act).

Sytuacja jest szczególnie tragiczna w dziedzinie publikacji naukowych. Aby dostać kopię (elektroniczną) artykułu który sam napisałem, muszę zapłacić wydawcy średnio $30, sporo więcej niż za przeciętną książkę w księgarni. W dobie powszechniej dostępności wiadomości gazetowych w Internecie, bariery w dostępie do wiedzy naukowej są ogromne, i stan ten budzi rosnący sprzeciw. Jest to sprzeciw tym bardziej uzasadniony, że praca naukowców jest w dużej części finansowana przez państwo, uczelnie albo przez prywatne fundacje z założeniem, ze będą służyły całemu społeczeństwu. Coraz więcej naukowców domaga się publicznej dostępności swojej pracy. Wydawcy tradycyjnych publikacji naukowych próbują obronić się przed tym trendem i zachować stary model oferując publiczna dostępność artykułu za określoną opłatą z góry przy publikacji. Wydawcy argumentują, że potrzebują pieniędzy na opracowanie, skład, itp. Na przykład Elsevier, wydawca wielu czasopism naukowych, wycenia publikację otwartego artykułu na $3000.

Czyli migracja z MAK do Koha

W sierpniu ubiegłego roku została podpisana umowa o współpracy Instytutu Józefa Piłsudskiego i Instytutu Naukowego w Nowym Jorku. Jej pierwszym owocem jest wspólny katalog zasobów bibliotecznych obu instytucji, który został uruchomiony w listopadzie 2012. W październiku ubiegłego roku podobna umowa została podpisana z Polską Fundacją Kulturalną w Clark, NJ, której biblioteka wkrótce rozpocznie dodawanie swojej kolekcji do naszego katalogu.  Wspólny katalog ma na celu ułatwić badaczom dostęp do zbiorów naszych instytucji tworząc jedno, docelowe narzędzie do przeszukiwania. Wspólny katalog powinien także usprawnić i przyśpieszyć sam proces katalogowania zasobów dzięki “współkatalogowaniu”, co jest szczególnie ważne w związku ze skromnymi środkami jakie nasze instytucje mogą przeznaczyć na ten cel. O ile nasze kolekcje nie są identyczne to jednak posiadają sporo duplikatów. Łatwo sobie wyobrazić sytuację, gdzie opisy bibliograficzne stworzone przez katalogujących jednej instytucji, będą mogły być wykorzystane przez drugą, oszczędzając w ten sposób czas i wysiłek.

Tutaj chciałbym przedstawić techniczną stronę łączenia bazy zbiorów biblioteki Instytutu Józefa Piłsudskiego i Instytutu Naukowego. 

More Product Less Process

On czasu opublikowania przez Marka A. Greene and Dennisa Meissnera w 2005 wpływowego artykułu More Product, Less Process: Revamping Traditional Archival Processing[1], proponowane w tej pracy rozwiązania zdobywają sobie coraz większe powodzenie wśród archiwistów. Jest to zdumiewające o tyle, że archiwa, instytucje o długiej tradycji, powołują się w pracy raczej na tę tradycje niż na nowinki. Wydaje się jednak, że autorzy tej metodyki, zwanej już popularnie jako MPLP, trafili w dziesiątkę i spowodowali poważne przemyślenia procedur w wielu instytucjach.

Praca ta, dotycząca organizowania i opisywania archiwów, wychodzi z zauważenia zjawiska tworzenia się w archiwach rosnących zaległości w opracowywaniu nabytków. Zaczynając od wyczerpującego przeglądu literatury, autorzy wysłali (i opracowali) ankiety do dużej liczby archiwów (państwowych i prywatnych), do archiwistów, a także dokonali analizy projektów fundowanych przez Narodową Komisję Rekordów i Publikacji Historycznych w USA. Hipoteza roboczą, która została potwierdzona w trakcie badań, było stwierdzenie, że “stosowana powszechnie metodyka obróbki archiwów trwoni cenne środki, ponieważ archiwiści tracą zbyt wiele czasu na zadania które nie muszą być wykonane, albo nie muszą być wykonane w tym momencie”. Autorzy twierdzą, że przez uproszczenie procedur i odłożenie części prac na później, można w znaczący sposób przyspieszyć udostępnienie zasobów badaczom.

PARTNERZY
Ministerstwo Kultury
Biblioteka Narodowa
Naczelna Dyrekcja Archiwów Państwowych
Konsulat RP w NY
Fundacja na rzecz Dziedzictwa Narodowego
PSFCU
NYC Department of Cultural Affairs