« Object ID のライセンスが ICOM に | メイン | 愛知県美術館の資料アーカイヴ »

March 19, 2005

DCMI Period で時代を表現してみる

DCMI Period Encoding Scheme で時代を表現してみる。

<!-- 平安時代 -->
<Period name="平安時代">
	<start>794</start>
	<end>1192</end>
</Period>

<!-- 11世紀 -->
<Period name="11世紀">
	<start>1001</start>
	<end>1100</start>
</Period>

<!-- 昭和 -->
<Period name="昭和">
	<start>1926-12-25</start>
	<end>1989-01-08</end>
</Period>

<!-- 昭和50年代 -->
<Period name="昭和50年代">
	<start scheme="和暦">昭和50年</scheme>
	<end scheme="和暦">昭和59年</scheme>
</Period>

例えば「奈良時代から平安時代」や「6世紀から8世紀」のような、 期間から始まって期間で終わるという表現は…うーむ、

If a non-numeric encoding is used then matching is maximally inclusive: i.e. if a start component is expressed as a named era then the interval being identified starts at the beginning of the era, and conversely for an end component the interval ends at the end of the named era.

ということなので、start にも end にも名前による時代をいれていいみたいだ。 (name は IMPLIED なので省略) たとえば、

<Period>
	<start scheme="時代">平安時代</start>
	<end scheme="時代">奈良時代</end>
</Period>

いや、scheme="時代" は適当すぎると思うけど。 でも

In this context the name is non-normative

ということなので、start に「平安時代」を指定したからといって 最初の例と自動的に結び付けられるというわけにはいかなさそうだ。 DTD では start も end も PCDATA なので、むしろ例えば

<Period>
	<start scheme="DCMI Period">
		<Period name="奈良時代">
			<start>710</start>
			<end>794</end>
		</Period>
	</start>
	<end scheme="DCMI Period">
		<Period name="平安時代">
			<start>794</start>
			<end>1192</end>
		</Period>
	</end>
</Period>

とかやってもいいのだろうか?(scheme="DCMI Period" っていうのは適当) これでいいなら、わりと自由にいろんな scheme を使えそう。 それとも scheme をちゃんと決めてやったほうがいいのか?

どっちにしろ、結果的に次のように解釈されればいいわけだ。

<Period>
	<start>710</start>
	<end>1192</end>
</Period>

ふむ。

さてここまでは同じ scheme を使う表現だったけど、「複数の期間の重ね合わせ」を 表現したい、ということが文化財関係ではごく普通にある。 例えば「江戸時代」で「19世紀」とか。この場合、最終的には、

<Period>
	<start>1801</start>
	<end>1867</end>
</Period>

のように解釈されればいい。

For multiple disjoint intervals, repeated instances of DCMI Period may be used.

という説明があるけど、これは「互いに離れた期間」ということだろうから、 「10世紀と18世紀」みたいなときに使う話だ。 だから複数の Period 要素を併記したときには和がとられるはず。

<Period>
	<start scheme="時代">江戸時代</start>
	<end scheme="世紀">19</end>
</Period>

としたくなるところだし(19世紀のほうは見易さのため適当に)、

it is possible to express different components using different notations if desired.

というわけで文法的にも間違ってはいないのだけれど、 これはダメで、なぜなら前にも引用したところに、

If a non-numeric encoding is used then matching is maximally inclusive:

ということなので、この例だと

<Period>
	<start>1603</start>
	<end>1900</end>
</Period>

と解釈されてしまうはず。70年くらいの幅のつもりが300年の幅になっちゃう。 それに前後がない場合はどうすんだとか(江戸時代で18世紀とか、平安時代で10世紀とか)、 えーとつまり、積をとる方法がないから困るわけだ。

もし時代の表現に DCMI Period を使いたいなら、単純な期間 (両端が W3C-DTF で表現できるような)なら問題ない。 両端が期間でもあるような場合、論理和がとられるということになる。 複数の期間の論理積を使いたい場合には、先にアプリケーション側で (W3C-DTF とかの形で)切り出してやらないといけない、ということになる。 でもそれなら、最初から W3C-DTF だけを使うのとたいして変わらない。 XML とかに出力するアプリケーションがそれぞれで W3C-DTF に変換してしまうと、 そいつらを集めて使う時にもともとどう書いてあったかわからなくなってしまう。 すると、昭和元年も大正15年も 1926 年になってしまって、 順序が決められないし、集めてきてから「昭和で検索」とかできなくなってしまう。

さらに、Period の問題ではないけれどもう一つ困るのは、推定された年の表現だ。 「1800年頃」の「頃」ってどうするんだ?

というわけで、文化財情報で時代・時期を表現するためには、

といったものを扱える必要があるだろう。 このうち最後の 2 つが DCMI Period では扱えないので、その辺は考えてやる必要がある。 その上で、構造化した表現と人間が読むための字面を機械的に 相互変換できないのであれば、表示用の文字列を別にもつことになる、のかな。 (EAD なんかだと標準化した書き方は attribute としてもってて、タグの内容に表示用というか人間用の記述があるみたい。RLG Best Paractice Guidelines for Encoded Archival Description とか参照。)

探せばどこかに全部の条件を満たすようなのがあるのかしらん?

ちなみにここでは年のことしか考えてません。日付のことは完全に無視してます。 そこまでやりだすとものすごい大変なことになりそう。

投稿者 ryoji : March 19, 2005 02:22 PM

トラックバック

このエントリーのトラックバックURL:
http://ryoji.sakura.ne.jp/mt/mt-tb.cgi/65