Słownik

Anonimizacja

Anonimizacja danych badawczych – przygotowanie danych w taki sposób, aby niemożliwe było zidentyfikowanie uczestników badania. Istotą anonimizacji danych jest przede wszystkim wybór danych osobowych, jakich ten proces dotyczy. Każda informacja, która może mieć znaczenie, powinna zostać poddana szczegółowej ocenie, której wynik będzie decydował o wykonaniu optymalnej anonimizacji.

Anonimizacja danych osobowych, czyli metoda pozbycia się nadmiaru danych osobowych będzie skuteczna jedynie wtedy, gdy dane zostaną usunięte w sposób uniemożliwiający identyfikację konkretnej osoby. Dostępne są narzędzia do przeprowadzenia anonimizacji danych (oprogramowanie otwarte).

Anonimizacja jest procesem nieodwracalnym.

Creative Commons CC

Licencje Creative Commons (CC) powstały po to, aby pomagać twórcom dzieł w sprecyzowaniu do czego mają prawa użytkownicy korzystający z ich utworów. Dzięki międzynarodowym licencjom proces tworzenia i wymiany treści w Internecie jest łatwy i zgodny z obowiązującym prawem. Licencje stale podlegają zmianom. Najnowszą wersją licencji jest wersja 4.0.

BY–Uznanie autorstwa oznacza, że należy zamieścić informację o autorze bądź licencjodawcy utworu.

NC–Użycie niekomercyjne oznacza, że nie wolno używać tego utworu w celu uzyskania korzyści majątkowej lub pieniężnego wynagrodzenia.

SA–Na tych samych warunkach oznacza, że każdy utwór zależny stworzony na podstawie oryginału należy opublikować na tej samej licencji, co oryginał.

ND–Bez utworów zależnych oznacza, że wolno używać utworu jedynie w jego oryginalnej formie, nie można dokonywać żadnych przekształceń ani adaptacji.

Creative commons

Open access

Dane badawcze

Zarejestrowane materiały o charakterze faktograficznym, powszechnie uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych.

Dane badawcze to informacja, w szczególności zebrane fakty, liczby, które mogą posłużyć badaniom i być traktowane jako podstawa do dalszego wnioskowania, dyskusji lub obliczeń.

Do danych badawczych zaliczamy:

dokumenty tekstowe,
notatki dane liczbowe,
kwestionariusze ankiet, wyniki badań ankietowych,
nagrania audio i wideo, zdjęcia,
modele matematyczne, algorytmy, schematy,
oprogramowanie (skrypty, pliki wejściowe),
wyniki symulacji komputerowych,
protokoły laboratoryjne, opisy metodologiczne,
próbki, artefakty, obiekty,
metadane,
zawartość baz danych.

Dane badawcze ze względu na przygotowanie dzielimy na:

surowe
przetworzone

Data Journals

Data Journals – to typ czasopisma, które w ramach artykułu publikuje wyłącznie dane powstałe podczas prac badawczych. Oprócz samych danych publikowane są krótkie opisy np.: jakie dane zostały zebrane, kiedy, gdzie i jak zostały użyte, podane są informacje o miejscu przechowywania i udostępniania danych. Oprócz typowych Data Journals opisanych wyżej są czasopisma, które publikują zbiory danych wraz ze standardowymi rodzajami artykułów, takimi jak artykuły badawcze i recenzje.

https://mlibrarydata.wordpress.com/2014/05/09/data-journals/

http://blogs.nature.com/naturejobs/2014/12/04/how-to-publish-your-data-in-a-data-journal/

https://www.wiki.ed.ac.uk/display/datashare/Sources+of+dataset+peer+review

Dataset

Dataset – można inaczej określić jako zestaw danych. W przypadku Planu Zarządzania Danymi będzie to zbiór danych, które można zamieścić np. w wybranym repozytorium. Dataset opatrzony zostanie odpowiednim opisem (patrz metadane: tytuł, autor, język, data itd.). Do zbioru danych może zostać dołączony np. plik readme, czy księga kodowa itd. Dataset, czyli paczki danych, ze względu na potrzeby można dzielić i zamieszczać jako oddzielne zbiory danych w repozytorium, ważne jest to, aby były spójne i tworzyły zamkniętą całość.

DOI Digital Object Identifier

Digital Object Identifier to cyfrowy identyfikator przypisany na stałe do dokumentu elektronicznego. Jednoznacznie identyfikuje publikację lub innych obiekt w sieci (w odróżnieniu do identyfikatora URL, który przypisuje jedynie fizyczną lokalizację dokumentu). Właścicielem znaku towarowego jest International DOI Foundation.

DOI

Identyfikator DOI

Dublin Core DC

Dublin Core to zestaw elementów opisu obiektów dostępnych w sieci (tzw. metadanych). Zawiera elementy opisu formalnego tj. autor, tytuł, opis fizyczny itd. oraz rzeczowego: temat, zasięg i inne. Upowszechnianiem formatu Dublin Core zajmuje się Dublin Core Metadata Initiative (DCMI).

Pierwsze warsztaty złożone z bibliotekarzy, informatyków, archiwistów oraz wydawców odbyły się w 1995 w Dublin (Ohio, USA) nt. opracowania odpowiednich metadanych do opisu zasobów internetowych. Obecnie standard DC używany jest powszechnie w repozytoriach, bibliotekach cyfrowych, multiwyszukiwarkach.

Dublin Core^TM

Embargo

Okres, przez który dane badawcze nie mogą zostać udostępnione publicznie. Jest on zwykle wykorzystywany po to, aby uzyskać związane z nimi patenty i/lub inne prawa własności intelektualnej oraz przygotować oparte na nich publikacje naukowe. Po jego upływie opublikowanie danych badawczych staje się możliwe.

Selekcja i udostępniania danych badawczych do udostępnienia

FAIR

Zasady FAIR udostępniania danych badawczych.

Findable–żeby było łatwo je znaleźć, zastosowanie metadanych wg istniejących schematów, stosowanie trwałych identyfikatorów, przyjętych konwencji nazewniczych słów kluczowych.

Accessible–żeby były dostępne dla wszystkich, należy wyjaśnić powody zamknięcia dostępu do danych, należy udostępniać je w otwartych repozytoriach, dołączyć instrukcje oprogramowania lub samo oprogramowanie, a także udostępnić metadane.

Interoperable–żeby można było je połączyć z innymi danymi, należy korzystać z obowiązujących standardów zapisu danych, metadanych, a także oprogramowania (przede wszystkim wolne oprogramowanie), a także korzystać z ogólnodostępnych licencji oraz używać odnośników do innych danych, jeżeli tylko zostały wykorzystane (słowniki, standardy metadanych).

Reusable–żeby dało się je ponownie wykorzystać, należy stosować powszechnie znane licencje, standardowe metadane oraz zamieszczać informacje o pochodzeniu danych.

Format pliku

Ustalony standard zapisu informacji w pliku danego typu. Sposób zakodowania informacji lub danych zależy od zastosowanej aplikacji. Wyróżnia się otwarty format pliku (o publicznie dostępnej strukturze) oraz utajniony przez producenta – format zamknięty.

Ważne jest, by w jak największym stopniu wykorzystywać otwarte oprogramowanie do odczytu danych.

Standardy otwartości danych

Handle System

Nazwa stosowana dla systemu identyfikatorów przypisywanych do obiektów zapisanych cyfrowo. Identyfikatory te są na stałe przypisane do obiektów, niezależnie od ich fizycznego umiejscowienia. Handle należy i obsługiwany jest przez Corporation for National Research Initiatives (CNRI).

Z systemu Handle korzysta obecnie wiele firm tworząc swoje identyfikatory. Najbardziej znane to DOI i DSpace.

HDL.Net

Handle.Net Registry

Metadane

Metadane – „dane o danych”.

Metadane to ustrukturyzowane informacje opisujące, tłumaczące, lokalizujące i ułatwiające odnalezienie, wykorzystanie lub zarządzanie zasobem informacji. Metadane są kluczem do uzyskania dostępu do danych badawczych, ich zrozumienia i ponownego wykorzystania. Istnieją trzy główne typy metadanych:

Metadane opisowe–dostarczają informacji niezbędnych do odszukania czy też identyfikacji zbioru danych. Mogą zawierać elementy, takie jak tytuł, streszczenie, autor i słowa kluczowe.

Metadane strukturalne–opisują relacje i zależności pomiędzy poszczególnymi zbiorami oraz elementami tych zbiorów w celu np. ułatwienia nawigacji.

Metadane administracyjne–zawierają informacje pomocne w zarządzaniu danym zasobem. Zawierają dane takie jak sposób i data jego utworzenia, typ pliku i szczegóły dotyczące dostępu (prawa własności intelektualnej) i konserwacji (archiwizacja i utrzymanie zasobu). Metadane powinny informować m.in. o: strukturze danych, ograniczeniach ich dotyczących (jeśli takie istnieją), o tym co dane oznaczają i w jaki sposób je cytować.

Standaryzacją metadanych zajmują się m.in.: Research Data Alliance (RDA), OpenAire i Metadata 2020 mają na celu usystematyzowanie sposobu opisu danych. Metadane przygotowane według standardu posiadają stałą strukturę opisu o wyraźnie zdefiniowanych polach, dzięki czemu opis jest zawsze zrozumiały zarówno dla ludzi jak i programów komputerowych.

Występuje wiele standardów metadanych:

Ogólne standardy metadanych to Dublin Core i Data Cite, czy też Data Documentation Initiative (DDI).

Plan Zarządzania Danymi DMP

Data Management Plan (DMP) – to dokument opisujący jakie dane zespół badawczy oczekuje uzyskać lub wygenerować w trakcie trwania projektu, jak planuje nimi zarządzać, w jaki sposób je opisać, przeanalizować, przechowywać i z użyciem jakich narzędzi mają być one na koniec projektu udostępnione i zarchiwizowane. DMP powinien powstawać w początkowej fazie projektu.

Plan zarządzania danymi powinien zawierać informacje:

jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych),
jak zostaną uporządkowane i opisane (metodologia, standardy, metadane),
kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne),
w jaki sposób dane zostaną udostępnione (jak, kiedy, komu),
które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).

Otwarta nauka: prawo autorskie i wolne licencje

Dane badawcze–plan zarządzania danymi

Plik README

Plik tekstowy, który zazwyczaj dołączony jest do programu komputerowego i zawiera dokumentację programu, licencję, prawa autorskie lub informacje techniczne takie jak: wymagania sprzętowe czy opis obsługi programu.

Pseudoanonimizacja

Pseudonimizacja to proces, który polega na zastąpieniu danej rzeczywistej nazwą przybraną, czyli zastosowaniu pseudonimu. Pseudonimizacja utrudnia identyfikację, natomiast umożliwia przypisanie różnych czynności tej samej osobie (bez znajomości jej danych osobowych) oraz łączenie rożnych zbiorów danych między sobą. Pseudonimizacja skutecznie podwyższa bezpieczeństwo przetwarzania danych, ale nie jest równoznaczna anonimizacji dlatego dane poddane pseudonimizacji podlegają pełnej ochronie. Pseudonimizacja jest procesem odwracalnym.

Techniki pseudonomizacji:

Szyfrowanie za pomocą tajnego klucza–dane osobowe są przechowywane w zbiorze danych w formie zaszyfrowanej. Posiadanie klucza szyfrującego pozwala na pełen dostęp do danych osobowych. Używając szyfrowania, które zachowuje aktualne standardy bezpieczeństwa, możliwość odszyfrowania danych jest możliwa tylko z użyciem klucza szyfrującego.

Funkcje skrótu–polega na skróceniu dowolnego ciągu znaków do wyrażenia o stałej, określonej długości (dowolnej informacji przydzielany jest unikalny identyfikator). Funkcji tej nie można odwrócić, tak jak w przypadku szyfrowania. Jakkolwiek, znając zakres wartości, jakie zostały poddane skracaniu oraz w jaki sposób zostało ono wykonane, możliwe jest odtworzenie funkcji skrótu i uzyskanie prawidłowego zapisu.

Tokenizacja–polega na wykorzystaniu jednokierunkowych mechanizmów szyfrujących opartych na przypisaniu identyfikatora (indeksu, sekwencji lub losowo wygenerowanej liczby) w żaden sposób niezwiązanej z pierwotnymi danymi. Technika ta jest często spotykana w sektorze finansowym do autoryzacji operacji bankowych.

Repozytorium (dziedzinowe, instytucjonalne, ogólnego przeznaczenia)

Miejsce służące do deponowania, przechowywania i udostępniania w Internecie bieżącego dorobku naukowego instytucji naukowych (repozytoria instytucjonalne) lub określonych dziedzin nauki (repozytoria dziedzinowe). Repozytoria mogą służyć do deponowania zarówno publikacji jak i wyników badań naukowych.

Kierunki rozwoju otwartego dostępu do publikacji i wyników badań naukowych w Polsce