情報交換概論 第 4 回 (マークアップ言語 / 読み上げソフトのしくみ) 「マークアップ言語」 講義ノート目次

文書の効果を tag と呼ばれる文字列で囲って示す記述言語である。 文書の効果には、文書の見出し、リンク、大きさや位置などが含まれる。

マークアップ言語は、テキストファイルであるため、 テキストエディタを用いて読み書きができる。

SGML (Standard Generalized Markup Language)
マークアップ言語の論理構造、意味構造を作った言語
TeX
Donald E. Knuth が開発した組版ソフトウェア

SGML では DTD (Document Type Definition) に構造や属性を記述するきまりになっている。

SGML からはさらに、Web ブラウザのために開発が進んだ HTML (HyperText Markup Language) や XML が派生した。HTML や XML は DTD を用いる必要がない。XML は表計算にも用いられはじめている。OpenOffice Calc では、XML へ変換ができる。

TeX は、LaTeX, AMS-TeX などと機能が強化され、 また近年はそれらの機能強化した TeX たちを統合した teTeX が UNIX のソフトウェアとして知られている。 日本語用には pTeX, pLaTeX があるが、 これらも日本語化がボランティアによって teTeX に統合されている。

マークアップ言語が目指すもの

Text ファイルとは、見たままの文字がそのまま読めるファイルのことである。 OS によらず、共通に利用できるファイル形式である。 Text ファイルを編集できるエディタ (文書作成ソフト) を、 テキストエディタと呼ぶ。本学では Emacs を使用している。

HTML や LaTeX は、マークアップ言語と呼ばれる。 テキスト形式に、文書の効果を示す Tag と呼ばれる文字列で囲んでをつけてあらわし、 テキストエディタを用いて編集することができる言語をマークアップ言語と呼ぶ。

ブラウザエディタで作成したファイルを Emacs や Windows のメモ帳で見てみると、リテラシーで学んだ HTML ファイルであることがわかる。

SGML 言語

マークアップ言語のうち、

<文書への効果>本文</文書への効果>

という文法を保つ約束で文書への効果を開発していった言語を SGML (Standard Generalised Mark-up Language) という。

HTML では、SGML で作られた規格をもとに、Web ブラウジング (browsing) を目的とし、言語を作っていった。 しかしベンダなどの開発団体がブラウザごとにさまざまな Tag を開発し規格化したために、 一時期はブラウザごとに HTML ファイルの見え方が異なる自体になった。

W3C (The World Wide Web Consorthium) という Web のスペック(仕様)、 ガイドライン、 ソフトウェアおよびツールに関する規格化を行う団体がある。 彼らが中心になり HTML の規格化を行い、現在は HTML そのものでは文書の論理構成のみを取り扱うようにし、見映えは CSS を用いて表現するように改正された。

一方、SGML 規格を緩やかに取り入れた XML という規格が、 出納などの数値データを扱うソフトウェアに使用されるようになってきた。 今後は表計算をやりとりする言語は XML であると見込まれている。

現在は、XML に準拠した HTML の規格を W3C が作っており それは XHTML と呼ばれるが、XHTML は 2009 年秋に開発停止が宣言された。 今後は Web ページが HTML5 で開発される環境に絞られることになった。

HTML5 では、XML も MathML(数式を扱う) も SVG(画像を扱う) も 可能となる規格とするよう、細かな制定が進んでいる。

ブラウザの発展も目覚ましく、Firefox や Opera、Google Chrome、Safari など、 古い規格も新しい規格も読めるよう設計してあるものがほとんどであり、 正しい Web 文書を作るためのユーザの努力はどうなるのか、 時間が経過するにつれ決まっていくものと思われる。