Geymsla vefa

frá Wikipedia, ókeypis alfræðiorðabókinni
Fara í siglingar Fara í leit

Vefurinn geymslu átt við söfnun og varanlegt umsóknar online útgáfur með þeim tilgangi að vera fær um að bjóða almenningi og vísindi innsýn inn í fortíðina í framtíðinni. Niðurstaðan af ferlinu er vefskjalasafn .

Stærsta alþjóðlega aðstaðan fyrir vefskjalavörslu er Internetskjalasafnið í San Francisco (Bandaríkjunum), sem lítur á sig sem skjalasafn alls veraldarvefsins. Skjalasöfn og bókasöfn ríkisins í mörgum löndum reyna að tryggja netskrár á sínu svæði.

Frá 1987 skilgreindu þýsku skjalasafnalög skjalavörslu stafrænna skjala sem skylduverkefni ríkisskjalasafna en framkvæmd þessa umboðs er aðeins að hefjast. Árið 2006 voru samþykkt DNBG (lög um þýska þjóðbókasafnið) sem nær til umboðs þýska þjóðarbókhlöðunnar til að fela í sér geymslu vefsíðna. Sambandsríkin eru að skipuleggja löglega innborgun sína til að breyta -Gesetze í þessum skilningi, eða breytingin hefur þegar átt sér stað.

Markmið í geymslu

Markmiðið með vefskjalavörslu er að kerfisbundið kortleggja skilgreindan hluta af þeim vefviðstöðum sem til eru á netinu. Í þessu skyni þarf að skýra fyrirfram yfirgripsmikla innheimtustefnu, valferli og tíðni geymslu.

Geymt ætti vefsíðu með öllum margmiðlunaraðgerðum ( HTML kóða , stílblöðum , JavaScript , myndum og myndböndum) til langs tíma. Lýsigögn eins og uppruni , kaupstími, MIME gerð og umfang gagna eru notuð til síðari lýsingar, notkunar og varðveislu. Lýsigögnin tryggja áreiðanleika og heilindi stafræna skjalasafnsins.

Eftir yfirtökuna verður að gera tæknilegar og lagalegar varúðarráðstafanir til að tryggja stöðugt aðgengi almennings og koma í veg fyrir síðari breytingar á skjalasafninu. [1]

Hugtakafræði

Upprunaleg úrræði
Upprunaleg heimild sem er eða ætti að vera tiltæk á internetinu og þarf aðgang að eldra ástandi fyrir. [2] [3]
Minnisvarði
Minnismerki um upprunalega heimild er auðlind sem hylur upphaflegt ástand uppsprettu á skilgreindum tímapunkti. [2] [3]
TimeGate
TimeGate er auðlind sem, miðað við tiltekinn dagsetningu og tíma, finnur minninguna sem samsvarar best þessum tímamörkum. [2] [3]
Tímakort
Tímakort er auðlind sem gefur út lista yfir allar minningar sem hafa verið búnar til fyrir upprunalegu uppsprettuna. [2] [3]

Valferli

Ótiltekið
Í þessu valferli er heilt lén smám saman skrifað í geymslu. Vegna mikillar kröfu um minni, vinnur málsmeðferðin aðeins fyrir smærri lén (netarkivet.dk).
velja lista
Listi yfir stofnanir er ákveðinn fyrirfram. Stöðugt verður að athuga stöðugleika vefslóðanna sem tengjast stofnunum.
Notkun aðgangsupplýsinga
Í framtíðinni er hægt að hugsa sér „greinda“ uppskeru sem byggir á aðgangatali geymir þá hluta vefsins (eða úrval) sem hafa sérstaklega háa aðgangshraða.

Ættleiðingaraðferðir

Fjaruppskera

Algengasta geymsluaðferðin er að nota vefskriðil . Vefskriðill sækir efni vefsíðu eins og mannlegur notandi og skrifar niðurstöðurnar í geymsluhlut. Nánar tiltekið þýðir þetta endurtekna leit á vefsíðum sem byggjast á tenglunum sem finnast á þeim, frá ákveðnu upphafssvæði, sem getur annaðhvort verið vefsíða eða listi yfir vefsíður sem á að leita. Vegna megindlegra takmarkana, td vegna tímalengdar eða geymslurýmis, eru ýmsar takmarkanir (uppsagnarskilyrði) með tilliti til dýptar, léns og gerða skrár sem geyma á í geymslu mögulegar.

Í stærri verkefnum er mat á vefsíðum fyrir röðun vefslóða sérstaklega mikilvægt. Meðan á skriðferlinu stendur getur fjöldi vefslóða safnast saman, sem síðan er annaðhvort unnið á lista með FIFO aðferðinni eða sem forgangsröð . Í síðara tilvikinu er hægt að ímynda sér vefsíður í hrúguuppbyggingu. Hver vefsíða sjálf myndar sína eigin hrúgu og hver tengill á aðra vefsíðu sem er að finna á henni myndar undirhaug sem táknar þátt í hrúgu fyrri vefsíðu. Þetta hefur einnig þann kost að ef yfirfyllt vefslóðalisti er yfirstaðinn, þá sem hafa lægsta forgang er skipt út fyrir nýjar færslur fyrst.

Hins vegar er sjaldan hægt að endurtaka upphaflega uppbyggingu á netþjóninum nákvæmlega í skjalasafninu. Til að geta útilokað tæknileg vandamál sem geta komið upp í aðdraganda speglunar er ráðlegt að framkvæma greiningu á vefsíðunni fyrirfram. Þó að þetta tvöfaldi gagnaumferðina í flestum tilfellum, þá styttir það vinnutímann verulega ef villa kemur upp. [4]

Dæmi um vefskriðla eru:

  • Heritrix
  • HTTrack
  • Kynningarlaus ótengdur

Geymir falda vefinn

Falinn vefur eða djúpur vefur vísar til gagnagrunna sem tákna oft raunverulegt innihald vefsíðu og eru aðeins sendir út að beiðni notanda. Þar af leiðandi er vefurinn stöðugt að breytast og það virðist vera óendanlega stórt. Viðmót sem er að mestu byggt á XML er nauðsynlegt til að taka yfir þessa gagnagrunna. Tækin DeepArc ( Bibliothèque nationale de France ) og Xinq ( National Library of Australia ) hafa verið þróuð fyrir slíkan aðgang.

Viðskipta geymsla

Þessi aðferð er notuð til að geyma niðurstöður notkunarferils á vefsíðu. Það er mikilvægt fyrir aðstöðu sem þarf að leggja fram sönnunargögn um notkun þeirra af lagalegum ástæðum. Forsendan er uppsetning viðbótarforrits á vefþjóninum.

Geymsla vefa í Þýskalandi

Á sambandsstigi hefur þýska þjóðbókasafnið (DNB) haft lögboðið umboð fyrir vefskjalavörslu síðan 2006. Síðan 2012 hafa vefsíður verið geymdar í þema og fyrir tiltekna atburði, þ.e. sértækt og ekki að fullu. DNB vinnur með utanaðkomandi þjónustuaðila. Að auki hefur öllum DE lénum verið skriðið einu sinni árið 2014 . Vefskjalasafnið er aðallega aðgengilegt á lesstofunum. [5]

Til viðbótar við vefritun DNB eru frumkvæði í ýmsum sambandsríkjum:

Það eru einnig önnur frumverkefni til að geyma vefsíður í Þýskalandi, til dæmis frá flokkum sem tengjast flokkum , frá SWR , frá Deutsche Post eða frá líftækni / lyfjafyrirtækinu AbbVie .

Sjá einnig

Framkvæmdir

Vefsíðutenglar

Einstök sönnunargögn

  1. Steffen Fritz: Endurskrifa saga. (PDF) með WARC skrár. Janúar 2016, í geymslu frá frumritinu 9. nóvember 2017 ; aðgangur 9. nóvember 2017 .
  2. a b c d RfC 7089 HTTP ramma fyrir tímatengdan aðgang að auðlindaríkjum - Memento
  3. a b c d Memento Guide: Inngangur. Sótt 5. október 2018 .
  4. Steffen Fritz: Æfingarskýrsla: Verklag við mat á geymsluhæfni vefhluta Í: ABI Technik nr. 2, 2015, bls. 117–120. doi: 10.1515 / abitech-2015-0015
  5. Tobias Steinke: Geymir þýska internetið í geymslu ? Milli sértækrar nálgunar og .de lénsskriðs . Þýska þjóðbókasafnið, 26. júní 2014 ( dnb.de [PDF]).
  6. ^ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Um stöðu vefskjalavörslu í Baden-Württemberg . Í: Bókasafnsþjónusta . borði   51 , nr.   6. , 1. júní 2017, ISSN 2194-9646 , bls.   481-489, doi : 10.1515 / bd-frá 2017 til 0051 ( degruyter.com [sótt 24. mars 2020]).
  7. Tobias Beinert: Vefsafn í Bayerische Staatsbibliothek . Í: Bókasafnsþjónusta . borði   51 , nr.   6. , 1. júní 2017, ISSN 2194-9646 , bls.   490-499, doi : 10.1515 / bd-2017-0052 ( degruyter.com [sótt 24. mars 2020]).
  8. Vinnuflæði vefskjalasafns í langtíma geymslu í Bayerische Staatsbibliothek | BABS. Sótt 24. mars 2020 .
  9. Edoweb: Rínland-Pfalz skjalasafnþjónn fyrir rafræn skjöl og vefsíður. Sótt 24. mars 2020 .