TEIガイドラインの解説

人文学におけるテキストデータ研究活用のための国際標準:TEIのご紹介

1 はじめに

 本誌は、文書情報マネジメント一般に関する雑誌であり、読者の方々は幅広いご関心をお持ちだろう。しかしながら、本稿では、人文学のための文書マネジメントの一環とも言える、テキストデータの構造化という、ややニッチな話をさせていただきたい。ただ、ニッチとはいえ、技術としては大きな広がりと応用可能性を持つ話であり、また、これから本稿で紹介していくような形で人文学のためのテキストデータが作成・公開されていくことで、文書マネジメントの在り方にも良い影響を与えていく可能性もあるかもしれない。そのような観点から、本稿をご高覧い
ただけるとありがたい。
 というわけで、本題に入ろう。文学や歴史、哲学をはじめ、さまざまな分野を含む人文学において、テキストデータと言えば、まず、研究資料をテキストデータ化することで活用する際に有用性が高いと考えられることが多い。また、論文を書く段階になれば、MSワードや一太郎、あるいはLaTeX等を使ってテキストデータを作成する人が多いようである。そのようなことで、テキストデータの作成をまったくしたことがないという人文学研究者はそろそろ極めて希少な存在となっている頃だろう。
 テキストデータの作成は、最初から大きな野望を持って取り組む人もいるかもしれないが、とりあえず手元にデータを作っておいて、論文や各種原稿を書くときにコピペして使ったり、ちょっと検索してみたりするのに便利だからと作成する人も多いと思われる。そうこうしているうちに、これがたまってくると、大規模テキストデータを検索することの利便性に気がついたり、そこで他の人が作ったデータとも連携できるようにしたくなったりすることもあるだろう。そして、そのようにしてまとまった大きなテキストデータから、気になる箇所を適宜取り出して索引や表を作ってみたり、人名や地名だけを取り出してみて関係や距離をプロットしてみたり、和歌等の韻律詩であれば韻律を踏まえたデータの分析をしてみたくなったり、文章に登場する年代だけを取り出して時系列に並べ直したりしたくなることもあるかもしれない。
 そのようにしてテキストデータを大規模に取り出して便利な使い方をしようと思った場合、近年ではAIに頼るのも徐々に現実的になってきている。実際のところ、大まかな話であればAIでもかなりのことができるようになってきた。しかし、細かく専門的な事柄になると、精度の面ではまだ改善の余地が大きい。人手では扱えないような圧倒的に膨大な量であれば、少々精度に問題があってもAIに頼ってしまうという方向が今後は出てくるかもしれないが、人力で、すなわち、人がテキストを作成しながら注記をしていき、それらを集約する形で色々なデータをうまく取り出したり処理したりできるなら、精度に関する心配がやや薄れるかもしれず、また、その責任の所在が明確化できるという意味でも一定の有用性があると思われる。

2 テキストデータに注記する手法

 ということで、人力でテキストデータを作り注記をつけていくという話題に入ろう。注記を付けるにあたっては、何らかの記号を使ったりタグをつけたり、色々な方法がある。LaTeXのタグは広く用いられているし、最近はMarkdownも広く使われるようになっている。書式を整えるような事柄であれば、そういったものでも十分なことも多い。また、XMLのタグを利用する方法もさまざまな形で広く受容されている。最近の有名なところでは、マイクロソフトのMS-Office(図1)や電子書籍のためのePubなどでは、ユーザ側からはあまり見えないようになっているものの、データとしてはXMLのタグで書式を記述しており、それだけでもユーザは膨大な数になるだろう。
 XMLは著名な国際標準規格の一つである。これは、利用者が自由にタグを設定できる仕様であるため、ユーザグループ、あるいは企業などが自分達にとって便利なタグのセットを設定し、それを共有することで利便性を高めるというのが一般的である。
 MS-OfficeやePubも、そのようにして一定のグループの中で共有すべく設定されたものであり、さらに国際標準規格として策定され広く用いられるに至っている。そして、より用途を絞り込むことで専門的な利便性を高めるべく、XMLのサブセットは実にさまざまなものが策定され利用されている。そのようなサブセットの中の一つとして、ここで採りあげようとしているTEI (TextEncoding Initiative)ガイドラインが人文学研究者の間で利用されているのである。

続きは下記のpdfでご覧ください。

誌面PDF