Next: 6 Yhteenveto Up: 5 Muut muunnokset Previous: 5.1 SGML:stä julkaisuksi

5.2 Erilaisista formaateista SGML:ksi

Verkosta löytyvät ohjelmat, jotka kuuluvat kategoriaan ``muunna jotakin SGML:ksi'', muuntavat dokumentteja yleensä HTML:ksi. Tämän muunnoksen jälkeen oltaisiinkin taas puhtaan SGML-muunnoksen alueella. Tässä kuitenkin usein menetään informaatiota - sitä enemmän mitä useampia muutoksia välillä tehdään. Näitä ohjelmia on kuitenkin eniten tarjolla.

Verkosta löytyviin muunnosohjelmiin on syytä suhtautua kriittisesti. Xavier Leroyn sanoin:

Many are quick hacks that have been put together in a hurry and made public after very little testing. ``It works for me; have fun!''.

Tekstin muuntamisohjelmia HTML:ksi löytyy useita. Niissä täytyy kuitenkin tehdä jonkinlaisia olettamuksia tekstistä, esimerkiksi tyhjä rivi tarkoittaa uutta kappaletta, yksinäinen rivi tarkoittaa otsikkoa, tähdellä alkava rivi listan alkiota jne. Tekstin muuttamisessa ollaan selvästi tilanteessa, jossa alkuperäisessä formaatissa on vähemmän informaatiota itse tekstistä kuin muunnoksen kohdeformaatissa.

LaTeXin muuntaminen HTML:ksi on tavallaan helpompaa kuin pelkän tekstin. Toki LaTeXin erikoispiirteet vaikeuttavat asiaa, mutta silti LaTeXissa on myös rakenneinformaatiota, esimerkiksi otsikoiden tasot. LaTeXin matemaattiset kaavat ovat olleet suurin haitta hyvilläkin muunnosohjelmilla, sillä yleensä ne on vain muunnettu kuviksi HTML:n heikon matemaattisten lausekkeiden tukemisen vuoksi. Tämä aiheuttaa ensinnäkin heikomman esteettisen tuloksen, ja lisäksi kuvat vievät enemmän tilaa ja niiden siirtämiseen menee enemmän aikaa kuin pelkkään tekstiin. Xavier Leroyn kirjoitus on opettavainen tarina LaTeX-muunnosten hankaluudesta [Ler].

Erilaisia Help-formaatteja varten on myös olemassa paljon muunnosohjelmia. Sekä Windowsin Help että UNIXin man-sivut on mahdollista saada HTML:ksi. Näillä on ehkä enemmänkin merkitystä intranettien yleistyessä, kukapa haluaisi kalliin ohjelmansa osia jakaa ilmaiseksi ulkopuolisille.

Jopa lähes pelkästään dokumentin visuaalisesti kuvailevista formaateista on mahdollista saada enemmän tai vähemmän kelvollista-HTML tekstiä. POSTSCRIPT, Rich Text Format (RTF) ja groff ovat vain esimerkkejä monista mahdollisuuksista.


Heikki Toivonen -- Last modified 28.1.1997 --