Wikipedia: Tækni / gagnagrunnur / niðurhal

frá Wikipedia, ókeypis alfræðiorðabókinni
Fara í siglingar Fara í leit

Wikipedia er ekki aðeins hægt að lesa á netinu með vafra ; það er líka möguleiki á að hlaða niður allri Wikipedia á þína eigin tölvu.

Það eru tvenns konar notkun:

  1. Greining á öllum frumkóðanum í einu; fyrir háþróaða höfundar- og viðhaldsstarfsemi.
  2. Lestu allar síður verkefnisins án þess að þurfa að vera nettengdur.
    • Til að gera þetta þarftu ákveðinn hugbúnað sem birtir innihald wiki í nothæfu formi: textalesari . Þetta kemur í stað vafrans.
    • Sérlausn hér er að líkja eftir wiki netþjón á eigin tölvu; sjá næsta kafla.

Wiki verkefni eru uppfærð hér á tveggja til fjögurra vikna fresti („sorphaugur“). Textar þýsku Wikipedia eru yfir 6 gígabæti auk myndanna og fjölmiðlaskrárnar sem ekki eru fáanlegar sem sorphaugur og myndu taka upp margföld stærð.

MediaWiki lausn

Hægt er að hlaða niður MediaWiki hugbúnaðinum sem keyrir á netþjónum ókeypis, en ekki í nýjustu útgáfunni. Þetta þýðir að hægt er að keyra öll wiki verkefni (þ.m.t. þitt eigið); og þú getur líkt eftir síðustu mánaðarlegu stöðu Wikipedia og lesið hana í vafranum.

Á Wikipedia: Technik / MediaWiki / Private Installation getur þú fundið eina af nokkrum leiðbeiningum fyrir XML útgáfuna - frá tómu skjáborðinu til fullunninnar Wikipedia (þú þarft nettengingu á tölvunni sem þú vilt setja upp offline Wikipedia á, eða þú þarf að flytja gögnin um fjöldageymslu (t.d. ytri harða diskinn)).

Sæktu allar síður sem XML -rusl

Sæktu skrárnar sem þú vilt . Auðveldasta leiðin er að henda núverandi útgáfum greina og nokkrum öðrum síðum: dewiki - ?? - pages -Articles.xml (file) . ( RSS straumur )

Flytja inn í MySQL

Innflutningur á XML gögnum er annaðhvort hægt að gera með hægfara PHP forskrift importDump.php MediaWiki hugbúnaðinum (staðsettur í maintenance/ MediaWiki uppsetningarskránni), eða í gegnum örlítið hraðvirkari Java pakka MWDumper . Þetta krefst virkrar Java uppsetningar. Innflutningurinn fer síðan fram með eftirfarandi skipun:

 ./mwdumper --format = sql: 1.5 pages_meta_current.xml.bz2
| mysql -u <notandanafn> -p <gagnasafn>

Það er mikilvægt að gagnagrunnstöflurnar séu algjörlega tómar nema vefsvæðisstaðlar, notendur, notendahópar og interwiki (STYKKI TABLA ...), annars getur innflutningur mistekist. Ef villa kemur upp mun MWDumper samt breyta XML í SQL en mySQL miðlarinn mun ekki lengur flytja inn. Í þessu tilfelli, athugaðu hvort öll töflur eru í raun tóm og byrjaðu upp á nýtt.

Þú hefur nú flutt greinasíðurnar inn í gagnagrunninn og getur lesið þær á wiki.

Skipunin um að tæma gagnagrunnstöflurnar lítur svona út:

 stytta skjalasafn ; stytta flokk ;  categorylinks; stytta ytri tengla ; stytta filearchive ; stytta hitcounter ; stytta mynd ; \
stytta ímyndartengla ; stytta ipblocks ; stytta starf ; stytta langa krækjur ; stytt skógarhögg ; stytta stærðfræði ; stytta hlutaskrá ; stytta gamla mynd ; \
stytta síðu ; stytta page_props ; stytta síðu_hömlur ; stytta síðutengla ; stytta verndaða_itla ; stytta querycache ; stytta querycache_info ; \
stytta querycachetwo ; stytta nýlegar breytingar ; stytta tilvísun ; stytta endurskoðun ; stytta leitarvísitölu ; stytta sniðmátartengla ; stytta texta ; \
stytta rekja spor einhvers ; stytta transcache ; stytta uppfærsluskrá ; styttu user_newtalk ; stytta vaktlista ;

Byggja tengilatöflur

Fyrir margar áhugaverðar gagnagrunnsfyrirspurnir er þörf á upplýsingum um hvaða grein tengist öðrum úrræðum. Að búa til þessar krækjutöflur sjálfur er tímafrekt ferli.

 php refreshLinks.php

Eins og staðan er er þetta forskrift gríðarlegur minni leki. Um leið og tölvan þarf að fá aðgang að skiptaskránni vegna skorts á minni, fer núll útfærsluhraði handritsins í núll æ hraðar. Þess vegna ætti að búa til krækjutöfluna á köflum með því að rjúfa forskriftina á milli, muna síðustu stöðu og byrja aftur á eftirfarandi hátt:

 php refreshLinks.php - 228600

Þannig losnar óþarflega nýtt minni aftur og gerð tengitafla heldur áfram með vörunúmer 228600.

Valfrjálst: textavísitala

Ef þú vilt framkvæma leit í fullum texta verður að búa til textavísitölu. Þetta er gert með

 php rebuildtextindex.php

Tilviljun, Wikipedia sjálft virkar ekki með þessari tiltölulega hægu MySQL-leit, heldur notar Apache Lucene.

Valfrjálst: Uppfærðu nýlegar breytingar

Ef þú vilt vita upp á hvaða tíma uppsett gagnagrunnsstýring mun endast geturðu stuttlega

 php rebuildrecentchanges.php

Segðu að endurnýja síðuna Nýlegar breytingar.

Valfrjálst: endurreikna fjölda greina

Hægt er að endurreikna fjölda greina í wiki og nokkrum öðrum tölum með initStats.php:

 php initStats.php

Orð um vélbúnað

Wikipedia gagnagrunnurinn gerir nú ansi miklar kröfur til afkastamikils vélbúnaðar. Fyrir betra mat, smá hagnýt reynsla: Ef þú vilt bara lesa, nægir 1 GHz flokkur tölva með litlu vinnsluminni. Fyrir krefjandi verkefni eins og viðhaldssíður, SQL fyrirspurnir, sjálfsmíðaðar tengitöflur eða innflutning á gömlu töflunni, ætti að gera betri vélbúnað aðgengilegan: 1 GB vinnsluminni eða meira og örgjörva eins hratt og mögulegt er með meira en 3 GHz eða fjölhraða örgjörva hefur mikla skynsemi, eins og solid-state drif . Töflurnar ættu að vera geymdar á MySQL miðlara sem InnoDB, ef mögulegt er, þannig að viðbragðstími sé styttri (en á kostnað minnisnotkunar). Athugasemd frá Echoray : Þessi þumalputtaregla er enn byggð á reynslu af gamla MediaWiki hugbúnaðinum 1.3 og MySQL 4.0. Með MyISAM voru hlekkitöflurnar einfaldlega of árangurslausar. Mig grunar að það sé bara ekki eins gott að nota skráarkerfisstýrikerfi stýrikerfisins og sérstaka skyndiminni sem InnoDB býður upp á. Þetta getur verið öðruvísi með nýrri hugbúnaði. Einhver gæti mælt það ... - MyISAM laðar einfaldlega meira að sér, jafnvel með einföldum aðgangi.

Sækja einstakar síður

Undir sérstöku: útflutningi geturðu halað niður einni eða mörgum síðum á XML sniði.

Viðbótarupplýsingar