Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

linked-data280Fragment diagramu Linked Data z portalu LinkedData.org

Linked Data jest stosunkowo nowym zjawiskiem w sieci WWW, ideą dostępu do danych strukturalnych. Co to są dane strukturalne? WWW jest uniwersalnym nośnikiem informacji czytelnej dla człowieka - wszystkie strony internetowe, artykuły, aplikacje dają nam informacje, które możemy odczytać i zinterpretować, na przykład pytanie: "kiedy przyjedzie następny tramwaj?” i odpowiedź; “za 10 minut". Takie pytanie i odpowiedź nie są jednak łatwe do odczytania przez komputery, które potrzebują informacji w ścisłej strukturze: (“Numer przystanku: 4398, linia tramwajowa: 11, odległość od przystanku: 0.8 km, itp.)

Informacja jest zwykle zapisana w bazach danych, które po wielu latach udoskonalania są bardzo wydajne w przechowywaniu i wyszukiwaniu danych, ale fatalne w wymianie informacji. Każda baza danych zawiera wiele kolumn, nazywanych raczej dowolnie i tylko lokalny system komputerowy umie z niej wyciągnąć dane. Nowy koncept, Linked Data, przybywa tutaj z pomocą. Schemat metadanych Linked Data, o nazwie  RDF (Resource Description Framework, struktura opisu zasobów), wymaga, aby dane nie były prezentowane w trudnych do odcyfrowania tabelach, ale w prostych zdaniach, składający się z podmiotu, orzeczenia i dopełnienia. Zamiast wymyślonych nazw kolumn używamy nazw standardowych, a zamiast nazwy podmiotu używamy jego identyfikator URI (Universal Resource Identifier, uniwersalny identyfikator zasobu). Przykładowo, trywialna dla człowieka informacja o tytule tego blogu (przecież możemy przeczytać go powyżej, prawda?) zamienia się w zdanie albo “trójkę” w slangu RDF [1) www.pilsudski.org/portal/pl/nowosci/blog/484, 2)  dc:title, 3) "Linked Data cz. 2: gdzie są dane?"]. Pierwsza część to adres URI jednoznacznie wskazujący na ten artykuł, druga to "tytuł” w konkretnym standardzie metadanych (Dublin Core), a trzecia część to tekst tytułu.

Więcej o szczegółach Linked Data i RDF znajdziecie w pierwszym artykule z tej serii,: "Wstęp do Linked Data", i nie będę ich tu powtarzać. W tym blogu chciałbym skupić się na konkretnych źródłach danych dostępnych obecnie na stronach WWW, nad tym jak je znaleźć i co one zawierają. W procesie digitalizacji archiwów często poszukujemy odnośnika do nazw, miejsc, organizacji lub zdarzeń, który byłby stabilny i dostępny. Jeśli pojawia się nazwisko, np. Karol Anders, czy możemy znaleźć źródło, które będzie jednoznacznie wskazywać na rekord tej osoby? Z oczywistych powodów będziemy omawiać tylko te źródła danych, które są publicznie dostępne. Link, który opublikujemy na stronie internetowej, otwartej dla każdego czytelnika, nie może prowadzić do zasobu, który nie jest dostępny dla tego czytelnika. Będziemy analizować nie wszystkie Linked Data, a otwarte Linked Open Data. Ilustracja powyżej pokazuje mały fragment ogromnej sieci Linked Open Data, poniżej kilka wybranych  źródeł z wyszczególnieniem tych użytecznych dla archiwisty i bibliotekarza.

wschod-ziemi-280Wschód ziemi. W dolnej części odzyskane zdjęcie wysokiej jakości.

NASA opublikowało niedawno nowo odzyskane zdjęcia z sond księżycowych, wysyłanych  w latach 1966-67 w ramach programu "Lunar Orbiter". Różnica jakości pomiędzy starymi, opublikowanymi zdjęciami i nowym materiałem jest uderzająca. Historia uratowania materiału i odtworzenia wysokiej jakości obrazów jest pouczająca, a zaczyna się od roku 1986, kiedy to archiwistka Jet Propulsion Laboratory (JPL) Nancy Evans zdecydowała, że nie może, w dobrej wierze, zwyczajnie wyrzucić starego materiału.

Sondy wyposażone były kamery wysokiej jakości, z podwójnymi obiektywami, i wykonywały duże ilości zdjęć na taśmie 70 mm. Taśmy były potem wywoływane na pokładzie sondy, zdjęcia były skanowane i wysyłane na ziemię. Modulowany sygnał z sondy, był zapisywany na taśmę magnetyczną, wraz z komentarzami operatorów. Następnie cała sonda (z oryginałami zdjęć) była bezceremonialnie rozbijana o powierzchnię księżyca. Taśmy magnetyczne były wykorzystane do wydrukowania dużych obrazów na papierze (wynajmowano stare kościoły aby rozwiesić ogromne arkusze), które używano do zidentyfikowania potencjalnych miejsc lądowania na księżycu. Następnie taśmy były załadowane do pudeł i zapomniane.

W 2005 dwaj entuzjaści z NASA, Keith Cowing i Dennis Wingo rozpoczęli prace nad odtworzeniem taśm, które w międzyczasie zmieniały kilkakrotnie miejsce przechowywania. Napęd taśm, bardzo rzadko spotykany Ampex FR-90, został zlokalizowany w szopie Nancy Evans, i grupa rozpoczęła pracę nad odzyskaniem obrazów. Wymagało to odbudowania napędu, odtworzenia nieistniejących już części i elektroniki, konwersji zmodulowanego sygnału na zapis cyfrowy, a następnie cierpliwego poskładania fragmentów zdjęć w jedno. Po odzyskaniu pierwszego zdjęcia ("Wschód ziemi", patrz wyżej), zespól, pracujący do tej pory ochotniczo, uzyskał finansowanie z NASA na kontynuowanie projektu. Od 2007 udało się odzyskać ok. 2000 zdjęć księżyca, ze zdumiewającymi szczegółami.

Epos o GilgameszuFragment  tabliczki Eposu o Gilgameszu z opisem potopu; zbiory British Museum via Wikimedia Commons

Dlaczego ważne są technologie cyfrowe, skanowanie i digitalizacja dokumentów i książek i innych obiektów? Jakie jest uzasadnienie ogromnego wysiłku przekształcania spuścizny kulturowej w postać cyfrową? Często słyszę takie pytania - od historyków, którzy preferują zapach i dotyk oryginalnych dokumentów lub archiwistów, którzy twierdzą, że mikrofilmy są wystarczająco dobre. Czy cyfryzacja to tylko moda, która wkrótce przejdzie, czy też ma to głębsze uzasadnienie?

“Cyfrowe” jest ważne - dla archiwów, bibliotek, muzeów (GLAM) oraz dla wszystkich producentów i konsumentów dóbr kultury. Omówimy tu trzy powody przechodzenia do cyfrowego przetwarzania informacji: Zabezpieczanie, Znajdywalność (discoverablity) i Dostęp.

Zabezpieczanie

Układ cyfrowy jest tylko jedną z wielu implementacji dyskretnych systemów przechowywania i obróbki informacji. Większość sygnałów, które docierają do naszych zmysłów, np. widok tęczy, symfonia lub zapach róży, można uznać za analogowe. Sygnał analogowy może przyjąć dowolną wartość, na przykład dźwięku lub koloru. Zakres jest zazwyczaj ograniczony jedynie możliwościami naszych zmysłów - nie widzimy podczerwieni, ani słyszymy ultradźwięków itp. Ale sygnał optyczny, po tym jak wpadnie do naszego oka lub kamery cyfrowej, nie jest dalej przetwarzany jako sygnał ciągły. Czujniki światła w siatkówce (czopki i pręciki) działają na zasadzie “wszystko albo nic”, podobnie dzieje się w kamerze gdzie każdy element czujnika rozkłada światło na ograniczoną liczbę poziomów.  Sygnał zostaje zmieniony w informację - wkraczamy tu w sferę dyskretności. W układzie dyskretnym tylko ograniczona, przeliczalna liczba stanów jest dozwolona, nie ma nic pomiędzy. W nowoczesnych komputerach cyfrowych podstawową jednostką informacyjną jest bit, który może posiąść tylko dwa stany (zwyczajowo zwane 0 i 1). Matematyczna teoria informacji, po raz pierwszy zaproponowana przez Claude E. Shannona, również używa jako jednostki binarnego bitu, z implikacją, że informacja w naturze swojej jest dyskretna. W komputerach, pojedyncze bity są zazwyczaj ułożone w grupy: 8 bitów w określonej kolejności nazywa się bajtem. W celu utrzymania ogólnego charakteru dyskusji, najmniejsza jednostkę systemu dyskretnego będziemy dalej nazywać znakiem, a ciąg znaków słowem.

W dalszym ciągu przyjrzymy się kilku systemom dyskretnym i na ich przykładzie tym ich cechom, które są są ważne w zabezpieczeniu i zachowaniu zasobów:  bezstratnemu kopiowaniu, czytelności maszynowej i korekcji błędów.

GLAM_logo_transparent GLAM to akronim (skrótowiec) od  “Galleries, Libraries, Archives and Museums”. Po polsku zapewne byłby GMAB, gdyby taki skrót był używany. Nie ma ciała ani organizacji o nazwie GLAM, skrót ten odnosi sie do agregacji instytucji które maja coś ze sobą wspólnego: są repozytoriami dziedzictwa kulturowego człowieka.

Istnieją instytucje, które zrzeszają muzea, archiwa, biblioteki itp. albo udzielają im wsparcia finansowego czy logistycznego, np.  Institute of Museum and Library Services (ILMS) w Waszyngtonie, Museums, Libraries and Archives Council w Wielkiej Brytanii czy Norwegian Archive, Library and Museum Authority. Te instytucje nie roszczą sobie jednak przynależności do GLAM ani nie używają tego skrótu.

Czym więc jest GLAM? Jest to idea, zgodnie z którą instytucje których zadaniem jest gromadzenie i udostępnianie dóbr kultury zyskają na szerokim udostępnieniu tych dóbr. Najlepiej ilustrują ideę GLAM dwie inicjatywy, OpenGLAM i GLAM-Wiki.

copyright-square-1

Niedawno (w tygodniu 13-18 stycznia 2014) Electronic Frontier Foundation (EFF) zorganizowała “Tydzień praw autorskich”,  aby przypomnieć nam, jak złożony jest to problem oraz co możemy  i powinniśmy zrobić w sprawie praw autorskich. Dla każdego z sześciu tematów (po jednym na dzień), uczestniczące instytucje wniosły swój wkład w postaci blogów, artykułów i innych inicjatyw. Jest to fascynująca lektura, z którą warto się zapoznać. Poniżej krótkie omówienie zilustrowane cytatami z wybranych tekstów:

Przejrzystość

Po publicznym oburzeniu nad ACTA i SOPA, Kongres USA próbuje ponownie zachować nowy projekt ustawy w tajemnicy. Tym razem jest to TPP, które, jeślii wejdzie w życie, może ukryć nowe reguły dotyczące praw autorskich w tajnych negocjacjach traktatowych. Jak i poprzednio, ustawodawca obawia się publicznej konsultacji, rozmawiając tylko z przedstawicielami przemysłu.

“Przeciek w postaci rozdziału "Własność Intelektualna" umowy o Partnerstwie Trans-Pacific (TPP) potwierdził nasze najgorsze obawy: Wielcy producenci medialni próbują przepchać ekstremalne przepisy dotyczące praw autorskich w tajnych transakcjach handlowych, które wprowadziłyby drastyczne  ograniczenia w Internecie. Podczas gdy Hollywood miał łatwy dostęp do przeglądania i mógł komentować projekty tekstów - więc mógł wprowadzić przepisy, które zechce - nasi prawodawcy zostały w większości pominięci”. - EFF

Budowanie i obrona solidnej domeny publicznej

Organizacje, takie jak Internet Archive, Creative Commons, Library Copyright Alliance, American Library Association i inne wyrażają swoje obawy co do ostatnich prób objęcia  prawem autorskim samej legislacji (odpowiednika “dziennika ustaw”)  i innych prób ograniczenia dostępu do zasobów domeny publicznej.

"Aby rozstrzygnięcie tego, co jest w domenie publicznej zrobić łatwiejszym Open Knowledge Foundation pracuje nad tworzeniem kalkulatorów domeny publicznej  - narzędzi, które pozwalają określić stan praw autorskich dzieła (w domenie publicznej, czy też nie)". - Open Knowledge Foundation

Otwarty dostęp

To co jest publiczne powinno być publicznie dostępne. Postęp wiedzy i kultury zależy od swobodnego udostępniania prac i danych naukowych. W 2013 r. Biały Dom wydał dyrektywę stwierdzającą, że wszystkie badania finansowane ze środków publicznych powinny być publicznie dostępne w repozytoriach. Jak jest to realizowane ? Co możemy zrobić, aby zwrócić społeczeństwu wiedzę społeczną?

"Krótko mówiąc, mamy badania finansowane przez podatników, za które wydawca nie płaci nic, ale dostaje pełne prawa autorskie, a następnie sprzedaje czasopisma z powrotem instytucjom akademickim w subskrypcji często dobrze ponad 100,000 dolarów rocznie. Jeszcze bardziej obraźliwe w tym wszystkim jest to, że prawa autorskie nigdy nie były powodem tego, że prowadzono badania naukowe". - TechDirt

Co kupiłeś jest Twoją własnością

Ta prosta reguła pozwala zrobić wszystko, co chcesz z książką lub płytą CD którą kupiłeś (oprócz jej kopiowania). Możesz dać ją znajomemu, pożyczyć (także w bibliotece), sprzedać. Reguła ta jest prawem w USA ale nie w wielu krajach europejskich. A co z zakupionym oprogramowaniem lub e-bookiem kupionym na Amazon? Czy naprawdę został kupiony? Czy masz takie same prawa jak w w przypadku książki?

"...Czytający książki w Nook są licencjobiorcami, nie nabywcami, są stronami jakiejś umowy licencyjnej.  Umowy takie usuwają transakcje z obszaru praw autorskich i przenoszą w obszar kontraktów.  Jest to ponury krajobraz często pozbawiający użytkowników ciężko wywalczonych praw w ramach ograniczeń wyłączności w prawie autorskim. " - American Library Association

Prawo dozwolonego użytku

Wiele można dokonać z materiałem, który jest chroniony prawem autorskim. Bez prawa dozwolonego użytku nie można było by nawet wspomnieć o książce.  Google nie mogłoby dostarczyć streszczenia wiadomości. Tworzenie zrzutów ekranu byłoby niezgodne z prawem, tak samo jak przytoczenie cytatu. Jest bardzo ważnym, aby bez wahania korzystać z prawa dozwolonego użytku, nie dając się zastraszyć.

"Następnym razem kiedy ustawiasz swoja nagrywarkę aby nagrać program, który chcesz obejrzeć w innym czasie, pomyśl chwilę, dlaczego jesteś chroniony przed procesami sądowymi z branży rozrywkowej. Jest tak dlatego, że 17 stycznia 1984 roku Sąd Najwyższy Stanów Zjednoczonych orzekł, że konsumenci mogą nagrać swoje ulubione programy telewizyjne i oglądać je później, bez zgody właściciela praw autorskich. Takie działania nie stanowią naruszenia praw autorskich, ponieważ mieszczą się w ramach dozwolonego użytku czyli w ramach  ograniczeń i wyjątków  od praw wyłączności przyznanych przez prawo autorskie autorom pracy twórczej. - Benetech technology

Jakie powinno byc prawo autorskie

Prawo autorskie zostało ukształtowane w ostatnich dekadach dużo bardziej przez interesy finansowe wielkich korporacji niż przez potrzeby społeczeństwa. Dziś możemy wziąć udział w dyskusji nad tym, jak  zreformować to prawo tak, aby spełniało rolę do której było pierwotnie przeznaczone. Można np. publicznie wypowiedzieć się na temat, jak naprawić prawo autorskie w  Unii Europejskiej i więcej.

"Prawo autorskie ma ważny cel  wspierania kreatywności. Zachęca artystów, pisarzy, itp. do rozwijania nowych i oryginalnych pomysłów, które mogą być następnie doznawane przez innych. Służy jako sposób uznania ich twórczych dokonań. Jednak prawo autorskie nie powinny być nigdy tak restrykcyjne, aby ograniczyć kreatywność i zahamować wzrost. Otwarta wymiana idei i myśli w wielu aspektach powinna być wykorzystywane do tworzenia nowych dzieł przez nowych twórców, którzy mogą wtedy uzyskać prawa autorskie dla swoich utworów”. - Organization for Transformative Works

Zachęcam do zapoznania się z całym materiałem Tygodnia praw autorskich. Tydzień ten jest obchodzony corocznie

Marek Zieliński, 4 lutego 2014

Może Cię też zainteresować

metro260W środę, 15 stycznia 2014 odbyła się w Nowym Jorku doroczna konferencja Metropolitan New York Library Council (METRO). Konferencja, która miała miejsce w nowoczesnym budynku Baruch College (CUNY), zgromadziła ponad dwustu przedstawicieli bibliotek archiwów, uczelni i innych instytucji z Nowego Jorku i okolic. Uczestnicy mieli do wyboru 25 prezentacji i wykładów przedstawiających różne aspekty pracy, możliwości i osiągnięć szeroko rozumianego środowiska bibliotekarskiego. Do przyjętych do prezentacji projektów zakwalifikował się referat przedstawicieli Instytutu Piłsudskiego: Dr Marka Zielińskiego i Dr Iwony Korga p.t. Digitization of Polish History 1918-1923 opisujący projekt digitalizacji i przedstawiający wybrane materiały, technikę opracowania danych, prezentację online i wykorzystanie danych przez Internautów.

Konferencja rozpoczęła się od wykładu znanej w środowisku amerykańskim bibliotekarki i blogerki Jessamyn West, która w wykładzie p.t. Open, Now! opowiedziała o możliwościach otwartego dostępu (open access) dającego nieskrępowany, bezpłatny dostęp do szeroko rozumianej informacji internetowej. Mówiła o projektach Google, Digital Public Library of America i o problemach prawnych związanych z takim dostępem.

CodexSinaiaticus260“A ona sama różaną barwą na twarzy rozlaną i wdzięcznymi a jasnymi oczyma serce swe smutne i zbytnią bojaźnią ściśnione pokrywała.” - Ksiega Estery z Codex Sinaiaticus 4:17m - 5:2 - ks. 9 rozdz. 5

Odpowiedzi na pytanie “Czym jest digitalizacja?” są tak różnorodne, jak różne są zasoby które są zamieniane w postać elektroniczną i jak różne są instytucje, które podejmują się tego zadania. Istnieją projekty, które zajmują się tylko jednym dokumentem, inne opisują z dużą szczegółowością jakieś wydarzenie lub twórczość jednej osoby, jeszcze inne dostarczają dostępu do wirtualnego archiwum historii. Są projekty które wykazują się nowatorskimi rozwiązaniami technicznymi, połączeniem różnych technik i źródeł informacji, sposobami odszukania i przeglądania zasobów. Instytucje posiadające bogate zbiory opracowują wystawy wybranych kolekcji, podczas gdy inne opierają się na współpracy wielu instytucji aby pokazać wspólnie jeden zasób. Oto garść przykładów ilustrujących tę różnorodność:

Codex Sinaiaticus to powstały w połowie czwartego wieku manuskrypt zawierający tekst Biblii po grecku, z najstarszą kompletną kopią Nowego Testamentu. Do połowy 19 wieku manuskrypt ten był przechowywany w klasztorze Świętej Katarzyny, najstarszym istniejącym dziś klasztorze chrześcijańskim, położonym u stóp góry Synaj  (Góry Mojżesza) w Egipcie. Dziś fragmenty tego rękopisu znajdują się w czterech instytucjach: oprócz Klasztoru Świętej Katarzyny także w Bibliotece Brytyjskiej w Londynie, Bibliotece Uniwersytetu w Lipsku i w  Rosyjskiej Narodowej Bibliotece w Petersburgu. Strona powstała jako wynik współpracy tych czterech instytucji. Jest nadzwyczaj starannie opracowana i zawiera wszystkie arkusze i ocalałe fragmenty kodeksu. Oprócz skanu oryginału strony podana jest transkrypcja w języku greckim, a dla niektórych stron również tłumaczenie na inne języki (angielski, niemiecki, rosyjski). Linki umożliwiają zlokalizowanie transkrypcji fragmentów tekstu po kliknięciu w oryginał.

PARTNERZY
Ministerstwo Kultury
Biblioteka Narodowa
Naczelna Dyrekcja Archiwów Państwowych
Konsulat RP w NY
Fundacja na rzecz Dziedzictwa Narodowego
PSFCU
NYC Department of Cultural Affairs