データカタログ横断検索システム

データカタログ横断検索システム

[1] データカタログ横断検索システム - データカタログ横断システム, https://search.ckan.jp/api

[2] データカタログ横断検索システム - データカタログ横断システム, https://search.ckan.jp/about

[3] なぜかドメイン<meta name=keywords>CKAN を称しているけど CKAN API 互換なだけの独自システムにしか見えない。

[4] >>1

195422件のデータが見つかりました​

と表示される ()。この「データ」はデータ集合の数か。

[5] サイトごとの個数上位をみると:

学術機関リポジトリ (124257)

DATA GO JP データカタログサイト (19310)

G空間情報センター (16444)

BODIK ODCS (12194)

(以下、万未満)

データカタログ横断システムと同じく NII 運営の IRDB からの転載が大部分。

[6] ただ学術系データの IRDB とそれ以外の行政系データは全然性質が違う。 IRDB 経由データをいくつか眺めてみたが、どれもライセンス不明なので、 それを使ってなにかするのは困難。

[7] 行政系データはどういう基準で登録サイトが選ばれているのか謎で、都道府県分すら全カバーできていない。

[9] そして件数第2位の DATA GO JP データカタログサイト は政府系データが集まっているのかと思いきや、実はろくにメンテナンスされてないゴミデータ集積サイトになっているという。 デジタル庁

[8] これだとここで探そうという感じにはならないんじゃないかなあ。

[10] 元サイトの件数と見比べると、一応いまもちゃんと稼働していて収集はしてるらしい。

[11] >>2

政府によるオープンデータの推進の動きに応じて、政府省庁や地方自治体は保有するデータのインターネット公開を進めています。しかしそれぞれの団体がウェブサイトを立ち上げているため、利用者は目的のデータを探していくつものサイトを回る必要があります。 本システムを利用すると各サイトのデータを一箇所で探すことができます。

このやりたいことは正しいと思うんだけどな。それに見合うものにはなってないよなあ。

[12] せっかく >>1 で API が提供されているのに、 >>2 によると

本システムは検索機能を提供するものであり、データカタログおよびデータの権利は各団体に帰属します。データを取得するためには各サイトに移動するようになっていますので、必ず移動先に記載されている利用条件や注意事項などをご確認ください。

となっている。データファイル本体はともかくメタデータの権利処理すらされていないし、 API が返すメタデータに権利情報が入っているとは限らない (収集した元データ次第)。 つまりこのサービスの API でデータを取得して何かする、ということが基本できない。 (検索のためのクライアントアプリケーションを作るくらいならできるが、 Webサイトで検索するのと比べて特になにか便利になることもなさそうで...)

[13] せめてメタデータだけでも統一ライセンスで利用できるようになってれば何か使いようがあるんだけどなあ...