Gå direkt till innehållet

FYSIKUMS WEBB- OCH MEDIAKURSER

Metadata ger information om ett dokument

Ordet metadata betyder ungefär data om data, d.v.s information som på något sätt beskriver en datamängd utan att själv ingå i datamängden. Metadata kan vara allt från en detaljerad beskrivning av betydelsen eller funktionen av enskilda element i ett dokument till system som strukturerar en stor samling dokument eller andra typer av data och gör det möjligt att söka efter information i en sådan samling resurser.

I datorsammanhang används metadata till att beskriva och organisera data som är lagrat i digital form, t.ex textdokument, filer med bilder eller andra mediatyper, eller data lagrat i databaser.

Behovet av genomtänkta metadatasystem blir allt mer viktigt, i takt med att våra datorbaserade informationssystem blir allt mer sammanflätade, och det blir allt viktigare att kunna flytta data mellan system som tidigare varit isolerade och kunnat fungera med sina egna udda klassificeringssystem. Ju bättre dokumenterad en digitalt lagrad resurs är desto lättare är det att lagra, hitta och distribuera den.

Detta problem har naturligtvis funnits så länge vi har haft datorer, och det har under de senaste årtiondena utvecklats en rad fiffiga metadatascheman för informationshantering. Nu när webben har kommit att bli en så viktig komponent i den digitala miljön är det nödvändigt att tillämpa erfarenheterna med metadatascheman på det nya informationssystemet.

Webbens grundläggande tekniker, sidbeskrivningsspråket HTML och filöverföringsprotokollet HTTP, har dessvärre bara ganska primitiva metoder för hantering av metadata, men de är tillräckliga för våra behov i denna kurs. (Sist i detta introduktionskapitel kan du läsa mer om RDF, den semantiska webben och andra nya projekt där man försöker hitta nya effektivare metadatascheman för klassificering av webblagrad information och för integrationen av webben med andra informationssystem.)

Det finns flera användningsområden för metadata

Så låt oss alltså titta närmare på allas vår favorit bland digitalt lagrade dokument, nämligen webbsidor. Det finns en hel del information om webbsidor som vi vill kunna ange utan att det belastar själva webbsidans innehåll, d.v.s det som visas i webbläsarens fönster. Här är några enkla exempel på metadata för webbsidor:

  • Författarinformation
    Det klassiska exemplet på metadata för textdokument, bl.a webbsidor, är namn på dokumentets författare, publiceringsdatum, eventuell livslängd för dokumentet, copyrightinformation, och information om dokumentet ingår som del av en större dokumentsamling. Om webbförfattaren har använt en webbeditor för att skapa dokumentet kan programmet självt dessutom lägga in metadata i dokumentet med editorns namn och versionsnummer.
  • Katalogiseringsinformation för sökrobotar
    Det finns metainformation som läses speciellt av de program ("sökrobotar") som söker igenom webbens alla webbsidor och lägger in dem i de stora webbkatalogerna, som t.ex Google och Yahoo. Med lämpliga metadatakoder kan du i viss mån styra hur dina sidor indexeras av sökrobotarna, och påverka chanserna för dina sidor att hamna högre upp i sökresultatlistorna. Du kan också utestänga robotar helt från sådana sidor på din webbplats som inte ska indexeras.
  • PICS och andra klassificeringscheman
    Många föräldrar är oroliga för vad deras barn kan råka få se när de surfar på webben. Som hjälp har ett flertal tekniker för klassificering av webbsidor tagits fram, till idén snarlika det amerikanska schemat för klassificering av biograffilmer. Tanken är att webbsideförfattaren själv eller med hjälp av fristående klassificeringsorganisationer ska bedöma sidans barnlämplighet enligt vissa kriterier, och att webbläsare eller andra program kan anpassas av föräldarar så att de spärrar nedladdning av olämpliga sidor. En av de viktigaste självcensurstandarderna är PICS - Platform for Internet Content Selection, framtagen av webbstandardiseringsorganisationen W3C. PICS-klassificeringen infogas i varje webbsida med metadatakoder.
  • Förval av teckenuppsättning, skriptspråk m.m.
    I den multinationella webben kan information om den teckenuppsättning som bör användas för korrekt återgivning av texten läggas in i ett textdokument i form av metadatakoder. Det går också att ange textens språk, samt standardvärden för val av kodspråk för stilmallar och skript som används i dokumentet.

Metadata infogas med HTML-elementen <meta> och <link>

Låt oss nu bli lite mer konkreta: hur definierar man metadata för en webbsida? HTML-standarden erbjuder ett antal olika metoder för detta, men de viktigaste utgår från HTML-elementet <meta>, med vars hjälp du kan lägga in metadata direkt i webbsidan, och elementet <link>, som hjälper dig att peka ut andra webbsidor som har någon relation till den aktuella sidan (t.ex inehåller detaljerad copyrightinformation).

I varje HTML-dokument lägger man vanligtvis flera sådana HTML-element, ett för varje metadatavärde som ska definieras. Samtliga metadata-element ska läggas i dokumentets huvud-avsnitt, d.v.s inom HTML-elementet <head>. Detta är ju rimligt, eftersom metadata definitionsmässigt inte bidrar till dokumentets innehåll (det som ligger i elementet <body>) utan bara beskriver dokumentet i sin helhet.

De två elementen <meta> och <link> beskrivs i detalj i avsnittet "Definiera metadata med HTML-kod" senare i denna artikel.

Kompletterande HTTP-huvuden

[OOPS! Denna sida har jag visst inte skrivit ännu... V.v. kom tillbaka senare]

Läs mer om hur man kan definiera HTTP-huvudfält med HTML-elementet <meta> i kapitlet "HTTP-huvuden".

Beskrivning av metadata med RDF

Så långt den ganska primitiva hantering av metadata för webbsidor som teknikerna HTML och HTTP erbjuder. Webbens standardiseringsorganisation World Wide Web Consortium (W3C) insåg dock efterhand att tekniken att beskriva webbdokument med infogade HTML-element med metadata var alltför begränsad för den allt snabbare växande och mer komplexa webben. W3C har därför utvecklat en ny mer generell standard för metadatabeskrivning av resurser på webben, kallad RDF - Resource Description Framework.

Ursprungligen var RDF en generalisering av den ovan nämnda klassificeringsstandarden PICS, men har växt till att bli mycket mer allmän. Förutom en rikare beskrivning beskrivning av publicerade webbsidor tillåter RDF identifieringen av andra, ickenedladdningsbara företeelser, t.ex information om ett webbdokuments författare eller en händelse som är relevant för dokumentet. Man har därför generaliserat namngivningsschemat för webbsidor, URL - Uniform Resource Locator, till det mer allomfattande URI - Uniform Resource Identifier. En URI-adress kan peka på relevanta resurser som inte nödvändigtvis utgörs av vanliga webbsidor.

RDF-beskrivningar formuleras vanligtvis i enlighet med dokumentstandarden XML, och ska kunna läsas och tolkas av speciella program.

Den semantiska webben

Initiativet RDF ingår som en viktig komponent i ett större visionärt projekt, den semantiska webben, ett av webbgrundaren Tim Berners-Lees skötebarn. Den vanliga webben innehåller ju en ofantlig mängd information, och vi människor kan ta hjälp av program, datorer och nätverk för att hitta och hämta hem informationen. Tolkningen av dokumentens innehåll har vi däremot hittills fått fixa själva. Visionen om den semantiska webben är att information och andra resurser ska kunna lagras och beskrivas på ett sådant sätt att även tolkning och databearbetning kan göras maskinellt.

Ett exempel som redan i dag finns förverkligat, om än i mycket primitiv form, är tjänster som jämför priser mellan ett flertal e-affärer, så att du kan hitta det lägsta priset för en viss vara. Problemet här är att varje e-affär kan ha sina helt egna sätt att beskriva varor, vilket gör det svårt för ett program att förstå om två varor är samma, snarlika eller helt olika. Ett första steg i riktning mot att förbättra servicen vore att ta fram en gemensam standard för beskrivning av t.ex varor. Den tekniska termen för en sådan gemensam terminologi är en ontologi. Sedan kan RDF användas för metadatamärkningen av artiklarna enligt denna standard.

Lästips för den semantiska webben och andra metadataprojekt hittar du i kapitlet "Läs mer om metadata" sist i denna artikel.

HTML-standarden definierar inte innehållet i metadata

Det HTML:s element <meta> och den mer ambitiösa metadatastandarden RDF gör är alltså bara att definiera hur metadata ska paketeras och föras över webben mellan program som bryr sig om detta, inget om vad sådant metadata ska bestå av. Som mitt exempel ovan med prisjämförelserna visar behövs separata överenskommelser om vilka scheman för metadata man ska använda för en viss typ av tillämpningar.

Scheman för metadata, t.ex Dublin Core

Det pågår en lång rad projekt över hela världen för att utveckla effektiva metadatascheman som kan tillämpas på webben. Långtifrån alla av dessa har ens haft webben och webbmetadata som huvudfokus, vilket inte hindrar att deras arbete kan anpassas till webbens speciella förutsättningar. W3C:s klassificeringsschema PICS är bara ett exempel.

Ett omtalat mycket ambitiöst metadataprojekt är The Dublin Core Metadata Initiative. Projektet startades kring 1995 med en konferens i Dublin, Ohio, som ett försök att med metadata-tekniker få bukt på det eviga problemet med att hitta information på den struliga och ostrukturerade webben, men har växt i omfattning sedan dess.

I Sverige försökte Högskoleverket kring decennieskiftet 2000 sjösätta Safari, en webbplats där svensk forskning skulle presenteras för allmänheten i begriplig form. Informationen skulle klassificeras i enlighet med Dublin Core. Safari lades ner under 2002, men om det berodde på komplxiteten i Dublin Core ska jag låta vara osagt. Andra mer framgångsrika Dublin Core-projekt i Sverige är Kungliga bibliotekets svenska webbkatalog Svesök.

FORTSÄTT

kodvalidering:
tester:
HTTP-data:
sidstruktur:
resurser:
välj stilmall:
välj typsnitt:

Senast uppdaterad 10 maj 2008