Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

Blog archiwistów i bibliotekarzy Instytutu Piłsudskiego

digitalizacja260

Digitalizacja. Ilustracja wykonana z wykorzystaniem pracy Junior Melo udotępnionej przez Wikimedia Commons [CC-BY-SA-3.0])

(Version in English)

W języku polskim pojawiło się nowe słowo, ‘cyfryzacja’. Zostało ono spopularyzowane przez stworzenie w 2011 roku nowego ministerstwa Administracji i Cyfryzacji, obejmującego szeroki zakres działania, od mniejszości religijnych do informatyzacji. Słowo to zwiększyło tylko pogmatwanie, gdyż niektórzy zaczęli używać go zamiast słowa digitalizacja, które także jest używane w różnych znaczeniach. Czym więc jest digitalizacja, formatowanie cyfrowe i cyfryzacja?

Formatowanie cyfrowe

To, co dociera do naszych zmysłów ma najczęściej charakter sygnału ciągłego, t.j. takiego, który może przyjmować dowolne wartości w swojej domenie. Światło - zarówno w jego natężeniu jak i kolorze jest sygnałem ciągłym, takim jest też dźwięk (charakteryzujący się też natężeniem i tonem). Natomiast nuty albo tekst zapisany na papierze jest ciągiem dyskretnym, tj. ciągiem znaków, z których każdy jest wybrany z tylko ograniczonego zestawu możliwości.

Konwersja sygnału ciągłego na dyskretny, albo konwersja analogowo-cyfrowa jest podstawą procesu digitalizacji. Odbywa się przez tzw. próbkowanie, tj podział jakiegoś obszaru (domeny) na dyskretne elementy, i zapisanie wartości sygnału w każdym elemencie. Dla dźwięku próbkowanie polega na zapisie intensywności sygnału dźwiękowego w odcinkach czasu. Dla obrazu dwuwymiarowego, obszar dzieli się na prostokąty (najczęściej kwadraty) i zapisuje wartość sygnału - w tym wypadku koloru - dla danego kwadratu (pixla). Dyskretny jest zarówno podział obszaru na elementy, jak i wartości, jakie po próbkowaniu może przyjąć zapis sygnału.

Jak się to odbywa w praktyce? Obraz dwuwymiarowy (płaski), np. zdjęcie, dokument, stronę tekstu, zamieniamy na zapis cyfrowy używając skanera; można też użyć aparatu fotograficznego. Sygnał dźwiękowy, przekształcony najpierw na elektryczny w mikrofonie, zamieniamy na zapis cyfrowy za pomocą urządzenia zwanego przetwornikiem analogowo-cyfrowym (AC). Przy konwersji filmu na błonie filmowej łączymy obie techniki - skan dla obrazu i przetwornik AC dla ścieżki dźwiękowej. Film zapisany na taśmie magnetycznej jest najpierw odtwarzany, a więc zamieniany z powrotem na sygnał elektryczny, który w podobny sposób jest zamieniany na cyfrowy z rozdzieleniem obrazu i dźwięku. W każdym wypadku przekształcamy jakąś informację zapisaną na ‘klasycznym’ nośniku na ciąg zer i jedynek, który z użyciem określonego kodowania zostaje zapisany na dysku lub w innej pamięci komputera.

Należy tu od razu odróżnić materiał który jest w chwili powstania zapisany w postaci cyfrowej - “born digital”. Zdjęcie aparatem cyfrowym lub elektroniczny zapis koncertu to są zasoby które powstały jako cyfrowe, mimo, że w procesie produkcji mogły odbywać się procesy konwersji.

W domenie języka którym posługują się bibliotekarze i archiwiści, na proces konwersji analogowo-cyfrowej najczęściej używa się określenia “reformatting” albo “digital reformatting” - zamiana oryginału na surogat cyfrowy.

Metadane

Plik cyfrowy zawierający jakiś zasób jest początkowo zupełnie pozbawiony metadanych. To tak, jakby na dysku mieć setki tysięcy plików (komputer na którym piszę ten tekst ma ich prawie pół miliona) o nazwach “abdez” rs23s” “94mpX” - nie mielibyśmy żadnych szans na znalezienie czegokolwiek. Proces zbierania metadanych (danych o danych, w tym wypadku danych o zasobie cyfrowym) można porównać do katalogowania książek, z tym, że pliki cyfrowe są o wiele bardziej niesforne i nie poddają się łatwo prostym zasadom katalogowania stworzonym przez bibliotekarzy. Metadane sa ważne dla zasobów domowych (dawniej wnuki dostawały w spadku albumy fotografii dziadków), a krytyczne dla archiwów i bibliotek których zadaniem statutowym jest zachowanie i udostępnianie zasobów. O metadanych pisałem już poprzednio, standardy metadanych są częścią cyklu w tym blogu.

Należy tu jeszcze wspomnieć o transkrypcji tekstu. Zeskanowany dokument jest czytelny dla człowieka, ale dla komputera to tylko gęsta masa kropek o różnych kolorach. Metadane są niezbędne do tego, żeby odszukać dany zasób, i często pomagają w tworzeniu indeksów (tematy, osoby, miejsca, daty itp). Można jednak pójść dalej, i metadane uzupełnić o transkrypcję całego tekstu doprowadzając go do postaci zrozumiałej przez komputer. Można to zrobić ręcznie, ale zautomatyzowanie tego procesu jest możliwe dzięki technice optycznego rozpoznawania obrazu (OCR). Poddanie np. książki procesowi OCR (i usunięcie błędów, bo technika nie jest 100% dokładna) pozwala na jej dostarczenie w postaci cyfrowej, w wielu różnych formatach, w zależności od potrzeb, a także na przeszukiwanie zawartości całego tekstu.

Digitalizacja

Czym więc jest digitalizacja? Jest to cały proces przeróbki zasobu analogowego na cyfrowy, składający się z przygotowania, formatowania, opisu (zbierania metadanych) i udostępnienia. Proces digitalizacji może wyglądać nieco inaczej w zależności od rodzaju zasobu, tu opiszę ten proces dla archiwów, parafrazując fragment autorytatywnego dokumentu NARA (Narodowej Administracji Archiwów i Zasobów USA):

Digitalizacja to seria czynności których końcowym efektem jest kopia cyfrowa dostępna dla użytkowników poprzez Internet lub innymi kanałami, przez długi okres czasu. Na czynności te składa się:

  • Identyfikacja i selekcja dokumentów. Jest to szczególnie ważne w archiwach, które często dostają pudła lub teczki zawierające wiele dokumentów, nie koniecznie w właściwej kolejności, często z pomieszanymi stronami.
  • Przygotowanie dokumentów, porządkowanie, konserwacja, paginowanie.
  • Zbieranie podstawowych metadanych - zarówno technicznych jak i opisowych, wystarczających do znalezienia dokumentu i dostarczających podstawowych danych o kontekście, w którym ten dokument występuje.
  • Konwersja cyfrowa.
  • Kontrola jakości kopii cyfrowych oraz metadanych.
  • Dostarczenie użytkownikowi (w postaci elektronicznej) dostępu do dokumentów.
  • Utrzymanie kopii cyfrowych i metadanych, kopii zapasowych i planowanie na przyszłość (konwersje formatów i nowe urządzenia)

Tak jak biblioteka to nie magazyn książek (choć spełnia ona także funkcje magazynowe) tak digitalizacja to nie skanowanie (choć konwersja cyfrowa jest częścią procesu digitalizacji).

Cyfryzacja

Trudno znaleźć użyteczną definicję cyfryzacji - słowo to jest używane w wielu kontekstach w sposób dość dowolny. Przyjrzyjmy się więc, czym zajmuje się Ministerstwo Cyfryzacji. W programie “Polska Cyfrowa” ministerstwo definiuje trzy “osie”: dostęp do szybkiego internetu, rozwój dostępnych w sieci e-usług i zasobów i kompetencje cyfrowych umiejętności obywateli. Pod hasłem “Kluczowe działania zintegrowanej informatyzacji” wymienia takie zadania jak zapewnienie ram organizacyjnych budowy systemu informacyjnego państwa, uzyskanie interoperacyjności rejestrów publicznych czy uruchomienie Państwowej Chmury Obliczeniowej. Widać więc wyraźnie, że pojęcie cyfryzacji jest tu rozumiane szeroko jako działania w celu zwiększenia dostępności Internetu i jego zasobów dla obywateli i wbudowanie mechanizmów elektronicznych w administrację państwową. Nie ma to więc nic wspólnego z digitalizacją.

Podsumowanie

Digitalizacja jest jednym z bardzo ważnych, a może najważniejszych zadań archiwów i bibliotek, wynikająca z powołania tych organizacji (zabezpieczenie i dostęp), w połączeniu z konserwacją i zabezpieczaniem oryginałów zasobów. Przyszłość, z czym zgadza się rząd powołując Ministerstwo Cyfryzacji, jest w dostępie elektronicznym do zasobów, w tym do książek i archiwów. Digitalizacja to cały proces zamiany istniejących zasobów analogowych w równoważne i dostępne zasoby cyfrowe, na co składa się m.in. obróbka oryginałów, konwersja cyfrowa, zbieranie metadanych i udostępnianie.

Czytaj więcej

(wszystkie źródła w języku angielskim)

Marek Zieliński, 17 grudnia 2013

Może Cię też zainteresować

 

Regime_entailment_basic-260

Przykład schematu RDF Linked Data (reifikacja) - autor Karima Rafes (własne dzieło) [CC-BY-SA-3.0], via Wikimedia Commons)

Linked Data to mechanizm którym posługuje się Semantic Web albo “Web 3.0 w budowie”. Te powiązane ze sobą określenia są tak nowe, że nie maja jeszcze ‘oficjalnego’ polskiego tłumaczenia. Na czym polega Semantic Web? Wszyscy używamy World Wide Web (www). Podstawowym składnikiem www sa tak zwane hiperłącza (hiperlink), odnośniki albo odsyłacze do innych stron, źródeł informacji. Kliknięcie w taki odsyłacz (ma w nazwie http) powoduje otwarcie w przeglądarce internetowej nowej strony pozwalającej na rozszerzenie naszej wiedzy lub dalsze zaspokojenie ciekawości. Www została stworzona dla naszej konsumpcji, i jak język naturalny, jest rozumiana przez ludzi.

Jak pisałem poprzednio, komputery są w porównaniu z nami bardzo mało rozgarnięte. Trzeba im wszystko przedstawiać kawa na ławę, metodą łopatologiczną. Ale są za to bardzo szybkie, a przede wszystkim potrafią ogarnąć o wiele więcej danych na raz niż my. A to znaczy, że odszukają w petabajtach informacji to, czego właśnie potrzebujemy. Aby to było możliwe, musimy być dużo bardziej precyzyjni, mieć wiarygodne źródła informacji i system który to wszystko połączy. Tym systemem jest właśnie Linked Data. 

Dlaczego interesować się Linked Data? Oczywiście z ciekawości, żeby zrozumieć jak działa dziś świat cyfrowy, który nas otacza; dotyczy to szczególnie archiwistów, bibliotekarzy i innych pracujących w dziedzinie obróbki  danych. Jeśli pracujemy w instytucji która posiada jakieś dobrej jakości dane z dowolnej dziedziny, udostępnienie tych danych już teraz w Linked Data podniesie znacząco prestiż tej instytucji na całym świecie.

(In English)

graphicformats240 W coraz większym tempie przestawiamy się na fotografię cyfrową. To, co było kilkanaście lat temu nowinką staje się standardem, a aparaty na film staja się rzadkością. Możliwość natychmiastowego sprawdzenia wyniku, powszechość zapisu obrazu w telefonach, tabletach, coraz tańsza pamięć cyfrowa i sprzęt fotograficzny powoduje, że robimy teraz o wiele więcej zdjęć. Jednocześnie jednak fotografia stała się czymś bardzo przejściowym. Kiedyś wklejało się zdjęcia do albumów, kolekcjonowało w pudełkach, dziś siedzą one jako pliki na dysku komputera, a gdy dysk padnie (wszystkie dyski to czeka), nagle tracimy nasze zasoby. Pisałem już wcześniej o osobistych archiwach cyfrowych, tym razem bardziej szczególowo o tym, jak zapakować i przechować obraz cyfrowy.

Zapis obrazu to nie tylko zdjęcia. Skany dokumentów w archiwum to także zapis cyfrowy, który powienien wiernie odzwierciedlać oryginalny dokument. Jak wybrać najlepszy format i sposób zapisu tak, aby przetrwał dla następnego pokolenia, aby nasze wnuki mogły ogladąć albumy dziadków, a archiwa przechowały bezcenne już (bo papier sie rozpadł) obrazy archiwaliów? Zapisany obraz przechowujemy w opakowaniu zwanym plikiem (file). W dalszym ciągu bedzie o formatach tych kopert, do których wkładamy zdjęcia - plików komputerowych, kompresji i metadanych a także przekładaniu obrazu z jednej koperty do innej (konwersji).

Aparat cyfrowy to imitacja siatkówki oka. Imitacja ta nie jest zbyt dobra, gdyż oko pracuje zupełnie inaczej niż kamera, ale można to traktować jako przybliżenie. Obraz - zbierany przez soczewkę albo skanowany na płaskim skanerze, dzielony jest na małe elementy, zwykle kwadratowe (pixle), a kolor zapisywany jest osobno dla każdego kwadratu. Notowane są dane dla trzech kolorów, choć innych niż w oku człowieka. Po przetworzenu danych mamy więc prostokątną matrycę, a w każdej jej komórce zapisany jest  kolor. Zapis charakteryzuje się wymiarami w pixlach (wysokość i szerokość) i trzecim wymiarem (zwanym głębokością), podającym jak szczegółowo rozróżnione są kolory. Najbardziej popularny zapis używa 8 bitów na każdy z 3 kolorów “podstawowych”(razem 24), co daje możliwość zapisania ponad 16 milionów odcieni.  Tak zapisane dane pakowane są do plików w jednym z formatów zwanych rastrowymi.

Kryteria wyboru formatu

Do niedawna nie trzeba było żadnego narzędzia do obejrzenia malowidła, zdjęcia czy przeczytania książki. Dziś coraz częściej musimy użyć tego sprzętu (komputera lub urządzenia które spełnia tę sama funkcję, choć nazywa się inaczej - telefon, tablet itp.). Co gorzej, spotykamy się z dużą liczbą formatów, lepiej lub gorzej przystosowanych do naszych wymagań. Jakie one są?

    1. Format powinien być publiczny, nie zamknięty. Niektóre, szczególnie starsze formaty, powstały w firmach zajmujących się obróbką obrazu, które zachowują prawa autorskie, ale zwykle format jest opublikowany i publicznie dostępny. Formaty zdefiniowane jako międzynarodowe standardy (np. ISO) mają dużo większą szansę pozostania użytecznym w przyszłości.

 

    1. Format powinien być popularny (co może czasem być w sprzeczności z punktem 1). Standard który nie ma łatwo dostępnych narzędzi jest przydatny tylko w teorii.

 

    1. Narzędzia do obróbki obrazu powinny być łatwo dostępne, a czytniki powinny być darmowe albo tanie, najlepiej otwartego oprogramowania. Dawanie komuś zdjęcia z adnotacją “możesz je sobie obejrzeć, ale musisz do tego kupić program za $500” jest w złym smaku. Podstawowa obróbka taka jak obracanie, przycinanie, zmiana rozmiaru itp. powinna być dostępna w popularnych, tanich  i/lub otwartych narzędziach.

 

  1. Formaty powinny posiadać możliwość zapisywania metadanych, patrz blog “Co jest na odwrocie zdjęcia cyfrowego?”.

Rozdzielczość i kompresja

Dla tych z nas, którzy parali się fotografią na kliszach srebrowych, znana jest ziarnistość filmu, połączona z jego czułością. Czym mniejsza czułość, tym mniejsze kryształki halogenku srebra, i tym drobniejsze szczegóły można zarejestrować. Kryształki zastąpiły w aparacie cyfrowym elementy światłoczułe - czym gęstsze tym drobniejsze szczegóły. Rozdzielczość czujnika podaje się zwykle w (mega) pixlach. Dla skanera ten wymiar podawany jest zwykle w pixlach na cal (lub centymetr), w skrócie ppi lub dpi.

Wielkość obrazu w pamięci komputera (szerokość x wysokość [w pixlach] x 3)  może być znaczna. Dla oszczędności miejsca niektóre formaty stosują kompresję. Nie musimy się tu zastanawiać nad jej rodzajami, a jedynie nad tym, czy cykl kompresja - dekompresja pozostawia obraz bez zmian. Jeśli tak, mówimy, że kompresja jest bezstratna, jeśli nie, stratna. Stratna kompresja może być dużo bardziej skuteczna w przypadku zdjęć, ale w zależności od jej intensywności pozostawiać po sobie ślady.

Formaty

GIF

GIF (Graphic Interchange Program) został wprowadzony przez Compuserve w 1987 roku. Stosuje bezstratna kompresję, ale jest ograniczony do 8 bitów na trzy kolory (maks. 256 odcieni) i z tego powodu nie nadaje się do zapisu fotografii. Możliwości zapisu metadanych są bardzo ograniczone. Posiada jednak dwie bardzo pożądane funkcje. Można w nim zdefiniować kolor przezroczysty, co pozwala na tworzenie grafik (takich jak logo) które można nałożyć na istniejący już wzór graficzny. GIF posiada też możliwość zapisu wielu obrazów, które można wyświetlać jako krótkie filmy (animacje) - ta funkcja powoduje niemalejącą popularność tego formatu. Większość przeglądarek internetowych potrafi wyświetlać pliki w formacie GIF, włącznie z animacją, obsługuje go prawie każdy program graficzny. Pliki mają rozszerzenie .gif

PNG

PNG (Portable Network Graphics) powstał w celu przezwyciężenia problemów z GIF, do których należała ograniczona liczba kolorów i opatentowany sposób kompresji. Format ten został zatwierdzony do użycia w Internecie w 1996 i uzyskał status standardu ISO w 2004. PNG pozwala na zapis grafiki i zdjęć, z użyciem 24 lub 32 bitowego koloru, ma też możliwość stosowania koloru przezroczystego. Stosuje bezstratną kompresję, a więc nadaje się do archiwalnego przechowywania obrazu i jego obróbka nie wprowadza strat jakości. Możliwości zapisu metadanych są ograniczone: brak jest formatu EXIF stosowanego przez aparaty fotograficzne; jest możliwość zapisu danych w formacie XMP, ale popularne programy ani nie zapisują ani nie czytają tych danych. Popularność formatu PNG rośnie, jest odtwarzany przez przeglądarki internetowe i obsługuje go większość programów graficznych. Pliki maja rozszerzenie .png

TIFF

TIFF (Tagged Image File Format) stworzony przez firmę Aldus został wprowadzony do użycia w roku 1986. Mimo tego, że ma już ponad 25 lat, jest ciągle niezmiernie popularnym formatem wśród grafików, fotografów, w przemyśle wydawniczym. Może zapisać pliki o wielkości do 4 GiB, w pełnej gamie kolorów. TIFF posiada możliwość zapisu wielostronicowego (a więc może zapisać np. wszystkie strony faksu), posiada kompresję bezstratną i możliwość zapisu bez kompresji. Ma wiele dodatków i rozszerzeń, względnie standardowa jest wersja TIFF 6.0 - standard administrowany przez Adobe, oraz kilka wersji zarejestrowanych jako standardy ISO. Nie posiada animacji, przezroczystości, nie jest wyświetlany przez najczęściej stosowane przeglądarki internetowe. Jest popularny wśród archiwów jako format przechowywania archiwalnego obrazów i skanów. Można w nim zapisać metadane Exif i IPTC, użycie XMP, choć teoretycznie możliwe, nie jest powszechnie stosowaną opcją. Tiff jest bardzo popularny, obsługuje go prawie każdy program graficzny. Pliki mają rozszerzenie .tif lub .tiff

JPEG

JPEG (Joint Photographic Expert Group) jest bardzo popularnym formatem stworzonym dla zapisu zdjęć i innych obrazów półtonowych. Używa zawsze kompresji, która jest stratna, ale daje znaczące zmniejszenie rozmiaru obrazu. Przy tej samej wielkości pliku, obraz w formacie jpeg może mieć 25 lub więcej razy więcej pixli (5 razy więcej wymiarze liniowym) niż tiff, co w dużym stopniu kompensuje stratność kompresji. Przy zapisie archiwalnym pojawiają się jednak dwa problemy: po pierwsze błędy kompresji są najbardziej widoczne na ostrych - kontrastowych granicach elementów obrazu (np. na brzegach liter tekstu), po drugie każda przeróbka powoduje powstawanie dodatkowych błędów gdyż nie można całkowicie wyłączyć kompresji. Ten drugi problem można częściowo ominąć przy przechowywaniu zdjęć, jeśli używa się programu (takiego jak np. Picasa), który zapisuje tylko transformacje pozostawiając oryginał niezmienionym.

Format JPEG jest zarejestrowany jako kilka standardów ISO, jest obsługiwany przez wszystkie programy do obróbki i wyświetlania obrazu, obsługują go przeglądarki internetowe - jest najpopularniejszym formatem do zapisu i wyświetlania zdjęć. W pliku JPEG można też zapisać metadane w Exif, IPTC i XMP, co zwiększa znacznie jego uniwersalność. Pliki maja rozszerzenie .jpg lub .jpeg, choć spotyka się czasem .jif, .jfif i inne.

JPEG 2000

Format JPEG 2000 (w plikach zaznaczany jako rozszerzenie .jp2) jest następną generacją formatu opracowanego przez Joint Photographic Expert Group. Posiada wszystkie zalety JPEG, lepszy algorytm kompresji, jest standardem ISO. Posiada możliwość zapisu bez kompresji, nadaje się więc do przechowywania materiałów archiwalnych. Zapis metadanych jest tylko w formacie XMP. W sumie jest to bardzo dobry przyszłościowy format graficzny.

Mimo tego, że został wprowadzony ponad 10 lat temu, zbywa mu jednak na popularności. Wiele czytników i programów do obróbki albo nie obsługuje JPEG 2000 albo obsługuje go tylko w ograniczonym zakresie, używając wtyczek - ładowanie obrazu w tym formacie trwa znacząco dłużej. Popularny program do obróbki i organizacji zdjęć, Picasa, nie wspiera tego formatu, a zapis metadanych wymaga wyspecjalizowanych narzędzi. Jpeg 2000 nie jest też wyświetlany w przeglądarkach internetowych.

Inne formaty

Istnieje jeszcze wiele innych formatów poza wymienionymi powyżej. Z różnych powodów pozostawimy je jednak na uboczu.

RAW  jest wspólną nazwą wielu formatów zapisujących ‘surowe’ dane z czujnika kamery - zawierają najbardziej szczegółowe dane obrazu, które następnie można dalej przerabiać. Choć wiele z nich używa elementów TIFF, są to formaty zamknięte, ograniczone do danego producenta kamery i jako takie nie nadają się do długoterminowego przechowywania ani wymiany obrazów.

BMP jest formatem rastrowym Microsoft, zbudowanym dla systemu Windows. Ponieważ jest bardzo popularny, spotyka się go często, szczególnie w starszych aplikacjach i jako format grafik w Windows.

PDF (Portable Document Format) nie jest formatem graficznym, ale może zawierać w sobie także grafikę. Jest formatem opisu dokumentu, zawierającym wszystkie elementy niezbędne do pokazania / wydrukowania jedno lub wielostronicowego dokumentu. Został stworzony przez formę Adobe w latach 1991-93 i spopularyzowany przez publikację przez tę firmę darmowych czytników PDF. Od 2008 jest standardem ISO, i nie jest już sterowany przez Adobe. W 2005 opublikowany został standard ISO o nazwie PDF/A, opisujący standard dokumentu z nastawieniem na przechowanie archiwalne, będącym pewnym podzbiorem formatu PDF.

PDF, a szczególnie PDF/A jest rekomendowany jako format dla długoterminowego przechowywania dokumentów. W istocie nadaje się on dobrze do tego celu, dając uniwersalny, względnie trwały zapis tekstu, sformatowanego na stronie, który może również zawierać grafikę, zarówno rastrową jak i wektorową. PDF nie jest jednak formatem graficznym, i dlatego w przypadku zdjęć i skanów stanowi tylko drugą kopertę, w która wkąda się juz zapakowane zdjęcie. PDF nie jest bezpośrednio wyświetlany przez przeglądarki internetowe, ani przez programy do obróbki obrazu. Najnowsza wersja (PDF/A-2 z 2011 roku) oferuje kompresję JPEG 2000 i użycie metadanych, zarówno dla całego dokumentu jak i pojedynczych stron. Narzędzia do obróbki PDF (poza własnościowymi i raczej kosztownymi narzędziami Adobe) są jednak rzadkie, i nawet wykonanie prostych manipulacji takich jak dodanie, odjęcie czy obrócenie stron dokumentu wiąże się ze sporą gimnastyką. Jeśli chodzi o prezentację (a nie przechowywanie długoterminowe) dokumentów wielostronicowych, PDF jest wygodny do użycia, i konkuruje z innym formatem stworzonym do tego celu, DjVu.

Rekomendacje

Jakiego formatu używać do przechowywania zdjęć i do przechowywania skanów dokumentów, w domu i w archiwum? Z opisu powyżej wynika, że w przyszłości będziemy mieli doskonałe formaty dające archiwalny zapis obrazu, metadane, świetne narzędzia i możliwość obejrzenia naszych zasobów w dowolnym urządzeniu. Dziś jeszcze do tego etapu nie doszliśmy. Mamy formaty które zostały stworzone dawno i są popularne, oraz nowsze, które być może będą lepsze, ale brak narzędzi dyskwalifikuje je do użycia teraz. Jest więc prawdopodobne, że nasze dzieci a na pewno wnukowie będą musiały dokonać konwersji do ‘właściwego’ w 2050 roku formatu - przełożyć zdjęcia do nowych, lepszych kopert.

Co robić teraz? Fotografie można zapisywać w formacie JPEG, w największej możliwej rozdzielczości. Aparaty fotograficzne maja zwykle różne opcje, należy wybierać zawsze najlepszą jakość. Powoduje to zwiększenie rozmiaru pliku, ale pamięć jest tania i jej cena systematycznie spada. Należy przechowywać oryginały zdjęć, i nie modyfikować ich, a tylko robić kopie. Należy zapisywać metadane (popularne czytniki takie jak IrfanView lub XnView to potrafią, dużo danych zapisuje też program Picasa (Opcje/Tagi/Przechowuj tagi w zdjęciach). Skany, a szczególnie materiały archiwalne należy przechowywać jako pliki TIFF. W przyszłości będzie można je przenieść do formatu .jp2, kiedy stanie się on bardziej powszechny. Zapis metadanych jest też mocno polecany, choć do archiwaliów zwykle chcemy dodać więcej informacji, skąd pochodzą, jakie były ich losy, co zawierały itp. Do tego polecam zwykły arkusz rozliczeniowy lub dokument biurowy, albo wyspecjalizowany program archiwalny, Jeśli chcemy zachować dokumenty tworzone elektronicznie, format PDF nadaje się do tego celu bardzo dobrze.

Czytaj więcej

Artykuły w Wikipedii o formatach graficznych(w języku angielskim)

Marek Zieliński, 2 listopada 2013

Może Cię też zainteresować

{plusone}

Ten blog jest trzecim w serii poświęconej standardom metadanych używanym w archiwach.

eadEAD (Encoded Archival Description) jest standardem stworzonym specjalnie w celu zakodowania pomocy archiwalnych. Z tego powodu jest on pewnego rodzaju hybrydą. Z jednej strony stara się odzwierciedlić sposób, w jaki pracują archiwiści tworząc pomoce archiwalne, z drugiej stara się wprowadzić dyscyplinę i dokładność niezbędną do elektronicznej obróbki dokumentu. W wyniku mamy sporo dowolności w umiejscowieniu danych, co ułatwia pracę archiwiście a jednocześnie utrudnia wymianę danych. W nowej wersji EAD (EAD3), która jest w przygotowaniu od kilku lat, spodziewane jest zmniejszenie tych dowolności.

Reguły i zasady tworzenia pomocy archiwalnych zawarte są w osobnych dokumentach. Oprócz zasad międzynarodowych - ISAD(G) - są również zasady tworzone w różnych krajach, jak np. DACS w USA, które są podobne ale posiadają często subtelne różnice. EAD jest formą zapisu tych danych w postaci zrozumiałej przez człowieka ale także nadającej się do obróbki komputerowej. Jak wszystkie nowoczesne standardy metadanych, wyrażony jest w XML i składa się z serii etykiet, takich jak <ead>, które mieszczą się w innych, wraz z regułami ich umieszczania i regułami dotyczącymi ich zawartości.

Poniższy tekst proszę potraktować jako zachętę i wstęp do lektury zbioru esejów Debates in the Digital Humanities pod redakcją Matthew K. Golda, wydanego w 2012 przez University of Minnesota Press. Antologia ta została także opublikowana w nieco rozszerzonej formie jako tekst „open access”, który dostępny jest tutaj.

Digital humanities (w skrócie DH), czy też humanistyka cyfrowa jest relatywnie nową dziedziną, która zdobywa coraz większą popularność w świecie akademickim. Artykuł w angielskiej Wikipedii podaje bardzo zgrabną definicję DH, do której odsyłam zainteresowanych. W skrócie, humanistyka cyfrowa, jest obszarem badań, nauczania i tworzenia łączącego technologie informatyczne i dyscypliny humanistyczne. Obejmuje ona działalność od kuracji kolekcji cyfrowych w sieci po eksplorację danych dokonywaną na wielkich zbiorach. DH stara się połączyć warsztat tradycyjnych dyscyplin humanistycznych (takich jak historia, filozofia, językoznastwo, nauka o literaturze, sztuce, muzyce, itd.) z narzędziami informatycznymi takimi jak wizualizacja danych, pozyskiwanie danych, eksploracja danych i tekstu, statystyka czy publikacja elektroniczna.

Kiedy oglądamy stare zdjęcie, na odwrocie często możemy znaleźć stempelek fotografa, notatkę na temat miejsca i daty zdjęcia, a nawet kto na nim jest. Ale gdzie jest “odwrotna strona” zdjęcia cyfrowego?

Nazwa pliku nie jest dobrym miejscem na zapisanie tych informacji. Okazuje się jednak, że obrazy cyfrowe mają “odwrotną stronę”, informacje o zdjęciu lub skanie, zapisaną wewnątrz pliku. Zapis ten nie zmienia samego obrazu, a do jego odczytania (i zapisania) potrzebujemy odpowiedniego narzędzia - programu.

Informacje są różnego typu. Kamera cyfrowa zapisuje wiele danych technicznych takich jak czas naświetlania, przesłona, liczba pixli i dane samej kamery. Te metadane zapisywane są w standardzie zwanym Exif. Przy przesyłaniu zdjęć przydatna jest informacja o tym, co jest na zdjęciu przedstawione, kto je zrobił, tytuł zdjęcia, autor, dane o prawach autorskich itp. Te dane zapisywane są w standardzie o nazwie IPTC. Zarówno Exif jak i IPTC zostały wprowadzone około 1995 roku, a więc są dość stare. Ma to swoje zalety - większość programów odczytujących zdjęcia potrafi odczytać te etykiety, a więc dane te są łatwo dostępne. Ale standardy te mają wiele wad:

  • Nie wszystkie formaty plików cyfrowych mogą je zmieścić (np. obrazy w formacie png nie zawierają danych Exif).
  • Liczba etykiet jest ograniczona bez możliwości dodania nowych - brakuje ważnych pól, np. osoby na zdjęciu.
  • Zapis jest ograniczony w wielkości tekstu (mała liczba znaków), brak jest kodowania unicode (brak wsparcia dla polskich liter), brak możliwości zapisu w różnych językach i wiele innych.

Na gorące dni lżejszy temat. Chociaż może niekoniecznie lżejszy, a na pewno gorący. W ostatnim okresie dostawałem całą serię emaili od znajomych, wszystkich z kontami w yahoo. Emaile wygladały dość podobnie - “hej, zobacz co ciekawego znalazłem” i link do strony internetowej. Jeśli tekst jest po angielsku, a Twój korespondent używa polskiego, łatwo jest od razu być podejrzliwym, ale nie zawsze tak jest. Link prowadzić może do strony, która zainfekuje Twój komputer, może nawet próbowac ukraść hasła, które używasz. To zjawisko ma juz swoja nazwę (Spear Phishing - łowienie z ostrym narzędziem?).

Mam też znajomych którzy popadają w drugie ekstremum i unikają jakiejkolwiek obecności w sieci - nie zapisują sie do społeczności, nie odpowiadają na emaile (albo nawet nie używają komputera, co jest już ekstremizmem konserwatywności). Ludzie Ci wylewają dziecko z kąpielą, gdyż obecność w sieci ma swoje autentyczne zalety, co jest widoczne szczególne mocno wtedy kiedy jak my jesteśmy daleko od bliskich sobie ludzi (lub na odwrót, to bliscy czy rodzina wyjechali daleko).

Zdarza mi się też od czasu do czasu zajmować się czyimś komputerem lub laptopem całkowicie opanowanym przez wirusy. Zwykle wygląda to tak, że komputer chodzi bardzo wolno, a jakakolwiek próba połaczenia ze stroną internetową powoduje przekierowanie na inną stronę (prawdopodobnie jeszcze bardziej zawirusioną). W takim przypadku najlepszym rozwiązaniem jest skopiowanie cennych materiałów (a następnie przepuszczenie plików przez dobry program antywirusowy) i kompletne sformatowanie twardego dysku.

Zdarza się też dość często, że poczta jest odrzucona przez serwer odbiorcy (ze słabą wymówką). Ten problem jest o tyle skomplikowany, że widzi go tylko nadawca (odbiorca zwykle odpowiada “przecież do mnie poczta zawsze dochodzi”...) a naprawić go może tylko odbiorca. 

Jak z tym wszystkim sobie poradzić? Nie ma w tym żadnej wielkiej magii, wystarczy zdrowy rozsądek. Poniżej kilka uwag z własnego doświadczenia:

PARTNERZY
Ministerstwo Kultury
Biblioteka Narodowa
Naczelna Dyrekcja Archiwów Państwowych
Konsulat RP w NY
Fundacja na rzecz Dziedzictwa Narodowego
PSFCU
NYC Department of Cultural Affairs