Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

 

Rob HudsonRob Hudson - Photo by Gino Francesconi

Part I: Process

(Guest blog by Rob Hudson)

My name is Rob Hudson, and I’m the Associate Archivist at Carnegie Hall, where I’ve had the privilege to work since 1997. I’d like to tell you about my experience transforming Carnegie Hall’s historical performance history data into Linked Open Data, and how within the space of about two years I went from someone with a budding interest in linked data, but no clue how to actually create it, to having an actual working prototype.

First, one thing you should know about me: I’m not a developer or computer scientist. (For any developers and/or computer scientists out there reading this right now: skip to the next paragraph, and try to humor me.) I’m a musician who stumbled into the world of archives by chance, armed with subject knowledge and a love of history. I later went back and got my degree in library science, which was an incredibly valuable experience, and which introduced me to the concept of Linked Open Data (LOD), but up until relatively recently, the only lines of programming code I’d ever written was a “Hello, World!” - type script in Basic — in 1983. I mention this in order to give some hope to others out there like me, who discovered LOD, thought “Wow, this is fantastic — how can I do this?”, and were told “learn Python.” Well, I did, and if I can do it, so can you — it’s not that hard. Much harder than learning Python — and, one might argue, more important — is the much more abstract process of understanding your data, and figuring out how to describe it. Once you’ve dealt with that, the transformation via Python is just process — perhaps not a cakewalk, but nonetheless a methodical, straightforward process that you can learn and tackle, step by step.

Now let me tell you a bit about the data that I worked with for my linked data prototype. The Carnegie Hall Archives maintains a database that attempts to track every event, both musical and nonmusical, that has occurred in the public performance spaces of Carnegie Hall since 1891. (Since the CH Archives was not established until 1986, there are some gaps in these records, which we continue to fill in using sources like digitized newspaper listings and reviews, or missing concert programs we buy on eBay.) This database now covers more than 50,000 events of nearly every conceivable musical genre: classical, folk, jazz, pop, rock, world music, and no doubt some I’m overlooking.  But Carnegie Hall has always been about much more than music; its stages have also featured dance and spoken word performances, as well as meetings, lectures, civic rallies, political conventions — there was even a children’s circus, complete with baby elephants, in 1934. Our database has corresponding records for more than 90,000 artists, 16,000 composers and over 85,000 musical works. Starting in 2013, we began publishing some of these records to our website, where you can now find the records for nearly 18,000 events between 1891 and 1955.  The limited release reflects our ongoing process of data cleanup, and we’re continuing to publish new records each month.  For my linked data prototype, I chose to use this published data set, since I knew it was good, clean data.

1-nycdh-smNa niedawnej konferencji METRO (Metropolitan New York Library Council) miała miejsce prezentacja przedstawicieli grupy ‘Humanistyka Cyfrowa w New York City' (NYCDH). Grupa ta działa od połowy 2011, i zrzesza zainteresowanych Humanistyką Cyfrową z Nowego Jorku i okolic. Dostarcza ona forum wielu różnym organizacjom i małym grupom osób które pracują nad jakimiś problemami związanymi z humanistyką cyfrową. Uczelnie, w których pracują członkowie komisji sterującej grupy (takie jak NYU, CUNY, Columbia, Pratt i inne) udzielają miejsca na spotkania. Kalendarz grupy jest pełny, często jest kilka wydarzeń lub spotkań w tygodniu. Grupa jest otwarta, i po zarejestrowaniu się każdy członek może wpisać w kalendarz imprezę jaka organizuje i wziąć udział w już ogłoszonej.

Na stronie NYCDH można znaleźć grupy dyskusyjne o wielu tematach takich jak “Pedagogika Cyfrowa”, “Grupa OMEKA”, “Bibliotekarze w Humanistyce Cyfrowej”, “Grupa analizy tekstu”, “Grupa eksperymentów cyfrowych”, “Antyki i techniki cyfrowe” i inne. Planowane na najbliższy okres i niedawno zakończone imprezy dobrze obrazują działalność grupy.

The 2015 Annual Conference of the Metropolitan New York Library Council

“What is the Problem” by Jill CirasellaThe slide entitled “What is the Problem” by Jill Cirasella, Associate Librarian for Public Services and Scholarly Communication at The Graduate Center, CUNY, published using the CC-BY licence

On Thursday, Jan 15, 2015 we took part in the Annual Conference of the Metropolitan New York Library Council, popularly called the METRO. The annual conference is always worth attending, since METRO associates individuals and organizations very advanced in modern thinking about libraries, archives and museums. This year was no exception, and we had a chance to learn about new achievements and ideas including the latest in digital technologies.

The Keynote speaker was Professor Siva Vaidhayathan from the University of Virginia, excellent speaker and author of many books including “Copyrights and Copywrongs: The rise of if Intellectual Property and How it Threatens the Creativity” and “The Googlization of Everything and Why We Should Worry”. He presented a slightly apocalyptic image of the present and his predictions for the next 10 years, where the “Internet” disappears, being replaced by embedded systems, walled gardens and products of visionaries that do not necessarily agree with our vision. The title of the presentation was “The Operating System of Your Life, and he touched topics like copyright, massive surveillance by companies and governments, security meltdowns, network neutrality and others. His message to the libraries and librarians was to take over and start framing the debates about the future. Most of us left the room awestruck, if not necessarily completely convinced.

Following the keynote we have split to cover as many topics as possible in the parallel sessions.

wikiarchive2-280gIlustracja wykonana z użyciem "Wikipedia logo bronce" by User:Nohat [CC-BY-SA-3.0], via Wikimedia Commons"

Archiwa to repozytoria dziedzictwa kulturowego człowieka które, zachowując oryginalne dokumenty i artefakty z przeszłości, odzwierciedlają wspólną historię. Ich zadaniem jest chronić te zasoby i udostępniać je wszystkim. Misją Wikipedii jest jest dostarczyć podstawową wiedzę, udostępniając ją swobodnie i bez ograniczeń. Archiwa są więc naturalnym kandydatem do współpracy z Wikipedią, do wykorzystania zasobów i możliwości obu z nich. Artykuł ten jest częściowo oparty na doświadczeniach układu partnerskiego Instytutu Piłsudskiego z Wikipedią w ciągu ostatniego półtora roku.

Dlaczego Wikipedia?

Wikipedia jest największą encyklopedią, dostępną dla wszystkich. Każdy, kto ma dostęp do Internetu może korzystać z niej korzystać. Wikpedia ma około pół miliarda odsłon miesięcznie, 250 wersji językowych i zawiera około 20 milionów artykułów. (Polska wersja ma ponad milion artykułów i jest w pierwszej dziesiątce na świecie). Użytkownicy coraz częściej sięgają po Wikipedię dla uzyskania podstawowych informacji na każdy temat, zwłaszcza dotyczy to młodszego pokolenia, dla którego komputer i internet to narzędzia codziennego użytku.

Instytut Józefa Piłsudskiego w Ameryce ma ok. 1,7 mln stron dokumentów, dotyczących wydarzeń w Europie i Stanach Zjednoczonych, od pierwszej do drugiej wojny światowej - do zimnej wojny. Praktycznie każdy, kto chce pisać o historii Polski, Niemiec, Austro-Węgier, Ukrainy, Białorusi, Rosji sowieckiej, w czasie I wojny światowej i później, przychodzi do Instytutu aby studiować źródła. Instytut posiada także dużą bibliotekę, głownie o tematach historycznych. Inne archiwa mają podobne skarby. Stworzenie partnerstwa z Wikipedią może pomóc w skuteczniejszym rozpowszechnianiu wiedzy o historii.

W początkowej fazie projektu widoczny był pewien opór przeciwko dzieleniu się zasobami z Wikipedii. Wynikało to m.in z wątpliwości co do jakości publikacji która "może być edytowana przez każdego". Drugi zarzut to kwestia swobodnego dzielenia się naszymi "cennymi zasobami". W końcu Rada Instytut zdecydowała się wejść w układ partnerski z Wikipedią. Już po roku widać było wyraźne korzyści w poszerzaniu dostępu do naszych zasobów i w zwiększonym zainteresowaniu Instytutem.

 Fragment mapy z kolekcji Instytutu Piłsudskiego w Ameryce: Rozmieszczenie wojsk w okolicy Stęszew z raportu Francuskiej Misji Wojskowej w Polsce, 1920 Fragment mapy z kolekcji Instytutu Piłsudskiego w Ameryce: Rozmieszczenie wojsk w okolicy Stęszew z raportu Francuskiej Misji Wojskowej w Polsce, 1920

Skanowanie dużych obiektów stanowiło zawsze wyzwanie dla archiwistów. Mapy, plakaty, i inne materiały o dużych formatach nie mieszczą się na stołach typowych skanerów o formacie A-3. Jednocześnie cena skanera rośnie eksponencjalnie ze wzrostem wielkości powierzchni skanowanej i często kupno skanera wielkoformatowego przekracza możliwości budżetowe instytucji. Jedną z opcji którą można zastosować zamiast skanera jest fotografia cyfrowa. Wymaga ona spełnienia wielu warunków, jak równomiernego oświetlenia, odpowiedniego systemu montowania kamery, płaskiego utrzymywania obiektu, korekcji na aberracje sferyczną i chromatyczną obiektywu itp. Największym ograniczeniem jest jednak ciągle nie wystarczająca rozdzielczość czujnika aparatów cyfrowych.

Jeszcze kilka lat temu braliśmy pod uwagę wynajęcie firmy profesjonalnej lub wysłanie archiwalnych map do archiwum posiadającego skaner wielkoformatowy. Jednakże postępy w oprogramowaniu do tworzenia panoram pozwoliło nam na opracowanie techniki, która kosztuje niewiele a pozwala na udostępnienie archiwalnych map w ich całej wspaniałości. Daje ona z możliwość podziwiania kunsztu grafików wojskowych i oglądania najmniejszych detali mapy. Technika ta polega na skanowaniu mapy w sekcjach a następnie sklejania ich, ale nie ręcznie a automatycznie, z użyciem odpowiedniego programu.

hathitrust-28010 czerwca 2014 r. Sąd Apelacyjny Drugiego Okręgu (południowy Nowy Jork) wydał wyrok, przychylając się do argumentów HathiTrust i odrzucając apel kilku organizacji autorskich, w tym m.in. amerykańskego Authors Guild i szwedzkiego Sveriges Författarförbund. W podsumowaniu wyroku czytamy:

“...utrzymujemy, że doktryna “dozwolonego użytku” pozwala pozwanym na stworzenie bazy danych umożliwiającej przeszukiwanie pełnotekstowe dzieł objętych prawami autorskimi i na dostarczenie tych dzieł w formatach dostępnych dla osób niepełnosprawnych.”

Dlaczego ten wyrok ma duże znaczenie dla archiwów i bibliotek? W prawodawstwie USA, w odróżnieniu np. od polskiego, doktryna “dozwolonego użytku” jest zdefiniowana w prawie autorskim w postaci dość ogólnych reguł. Powoduje to, że konkretne przypadki są decydowane przez sądy, ale także pozwala na uwzględnienie nowych rozwiązań technicznych.

W 2004 kilka uniwersytetów w USA zgodziło się, aby Google zeskanowało ich kolekcje książek. W 2008 trzynaście uniwersytetów ufundowało organizację o nazwie HathiTrust w celu zarządzania powstającą w ten sposób wspólną biblioteką cyfrową. Obecnie HathiTrust ma 80 członków instytucjonalnych i ponad 10 milionów zdigitalizowanych dzieł, opublikowanych poprzez wieki, w wielu językach i obejmujących wszystkie wyobrażalne tematy. HathiTrust, wraz Internet Archive, Project Gutenberg i innymi projektami digitalizacji jest organizacją partnerską dającą szeroki dostęp do dóbr kultury człowieka.

Wyrok Sądu apelacyjnego jednoznacznie odrzuca teorię, według której digitalizacja książek w celu stworzenia bazy danych jest naruszeniem praw autorskich, przynajmniej w USA. Jakkolwiek droga apelacji nie została jeszcze wyczerpana, wyrok ten ma bardzo duże znaczenie dla wszystkich, którzy digitalizują zbiory kultury. Jest przed nami jeszcze daleka droga do rozsądnego ulepszenia praw autorskich - patrz np. blog o tygodniu praw autorskich, ale ten wyrok jest krzepiącym precedensem.

Czytaj więcej

Marek Zieliński, 15 czerwca 2014

Może Cię też zainteresować

Rola wikipedii w cztereach typach bibliotekPanel "Rola wikipedii w cztereach typach bibliotek". Wiki-konferencja USA 2014. Foto Piotr Puchalski

W dniach 30 maja do 1 czerwca 2014 odbyła się w w New York Law School na Manhattanie konferencja “Wikiconference USA 2014”. Konferencja zgromadziła wikipedystów z USA, którzy przedstawiali i dyskutowali gorące obecnie tematy dotyczące Wikipedii a także jej siostrzanych organizacji skupionych w Wikimedia Foundation. Oprócz problemów technicznych, szkoleń i dnia poświęconego nieformalnemu spotkaniu  (“Unconference”), wiele sesji poświęconych było tematom, które bliskie są instytucjom GLAM i organizacjom edukacyjnym, takim jak wykorzystanie Wikipedii w kursach akademickich, prawa autorskie, wikiprojekty i inne formy współpracy. Poniżej kilka refleksji z sesji w którch braliśmy udział, dzieląc się uczestnictwem w równoległych sesjach.

Dzień pierwszy konferencji zaowocował wieloma pomysłami na rozwój projektu GLAM Instytutu Piłsudskiego. Podczas sesji, na której cztery różne instytucje przedstawiały swój sposób na wykorzystanie Wikipedii, Natalie Milbrodt z Queens Library podzieliła się innowacyjnym pomysłem na "Edytaton". "Edytaton" to zebranie osób zainteresowanych daną dziedziną, podczas którego, na podstawie dokumentów danej instytucji, osoby te piszą artykuły do Wikipedii, nauczywszy się najpierw podstaw edytowania.

PARTNERZY
Ministerstwo Kultury
Biblioteka Narodowa
Naczelna Dyrekcja Archiwów Państwowych
Konsulat RP w NY
Fundacja na rzecz Dziedzictwa Narodowego
PSFCU
NYC Department of Cultural Affairs