…eg var vel på veg til å forklara kva ein tag er. ein tag fortel kva som skal hende med teksten, og kan til dømes sjå slik ut: <name type=”person”> denne tagen står framføre eit namn på ein person, og fortel nett det som står inni klammene, at det dreiar seg om eit namn på ein person. her er eit flott eksempel, som har namnedag idag: <name type=”person”> ida </name>. ida vil vera det einaste av dette som viser i sjølve teksten (Document Instance). det grunnleggjande tagen formidlar om det etterfylgjande ordet (name) er tagen sin generiske identifikasjon – GI, tilleggsinformasjonen som fortel at det er eit personnamn, er ein attributt. skråstreken i tagen etter ordet fortel at innhaldet i tagen er “ferdig”. Ettersom alle dokument skal vera hierarkisk oppbygde, kan ein forenkla tagane ganske mykje. ein kan t.d. kutta ut informasjonen name i den siste tagen, og berre skriva </>. det vil vera logisk for programmet som les dokumentet at dette tyder at innhaldet i førre tag er avslutta.

 

HTML – HyperTextMarkupLanguage

HTML er ein SGML-basert standard, det er eit sett av reglar for dokumentstruktur som er utforma i samsvar med SGML sine reglar. det skil seg likevel frå SGML på nokre punkt. HTML i eit nøtteskal: er orientert etter utsjånad (stil) og innhald (struktur). har eit fast tag-sett, og er lett å læra seg for gud og kvarmann. kan innehalda stilark. nyttar inga validering og nettlesarane tolererar ofte feilkoding med HTML. dette vil seia at det kjem føre utruleg mykje feilkoding med HTML, dette er snarare regelen enn unntaket – og skulda for dette har nettlesarkrigen tidleg på 90talet. då internett var nytt og saftig var det mange som ville finna opp den optimale nettlesaren. nettlesaroppfinnarar utkonkurrerte kvarandre med å stadig finna opp nye kodar som dei andre nettlesarane ikkje greide å lesa. i byrjinga trur eg nesten det var på eit så tragisk nivå at “jamen med min nettlesar kan du skriva feit skrift viss du vil” “åja? med min nettlesar kan du både ha feit skrift og – hald deg fast no – syna diagram!”. då nettlesarane var ferdige å slåst, tok brukarane over, sidan HTML var så lett å læra seg. då ein omlag berre hadde tekst å flotta seg med på veven, var det jo om å gjere å få denne teksten så snasen som råd. dette tok heilt av, og folk produserte feilkodar uti staur og vegg. no kunne ikkje tekstdokumenta lengre lesast av alle lesarar, slik hovudpoenget med tekstkoding er, for nettlesarane heldt ikkje tritt med alle dei nye kodane folk stadig fann opp.  det har visst roa seg noko dei seinare åra, men HTML er den dag i dag ein reidskap som innbyr til rot. så då laut ein finna på noko nytt, som kunne bringa tekstkoding attende til det det ei gong var. dette herlege verktyet, heiter

 

XML – ExtensibleMarkupLanguage

 

XML er vidunderleg,

og ynskjer å kombinera det enkle med HTML og det strenge og fleksible med SGML, samt halda på uttrykkskrafta til SGML. XML er eit subsett av SGML, som er strengare enn dette. i XML kjem det ikkje på tale å forkorta tagane slik eg synte ovanføre. ikkje: </>, men </name>. dette inneber meir koding, men det lyt ein leva med, for her skal alt vera på stell. XML har og bestemt at tomme element skal ha sluttag, av di dei strengt teke ikkje held fram: ikkje <pagebreak>, men <pagebreak/> (pagebreak = sideskift, og denne koden kjem jo berre føre ei gong, på slutten av kvar side.) For å hindra skjendige nyskapingar i kodesystemet, er endringane som vart gjort for XML låst: SGML-deklarasjonen kan ikkje endrast, slik som i SGML elles.

Konsekvensar med XML:

– enklare syntaks

– dokument kan bli parsa utan DTD (nokon som kan bidra med ei forklaring her?)

– ein kan skilja mellom gyldighet og velformethet (eg skal sjekka med ordlista seinare)

– elles stort sett dei same eigenskapane som SGML

 

XML vert godt likt fordi den hierarkiske oppbyggjinga gjev tekstdokumenta ein fin trestruktur, som gjer dei særs oversiktlege. det er lett å få oversikt over relasjonane mellom elementa i teksten: