近代雑誌OCR学習用データセット

OCR

[3] OCR は、画像から文字列を得る操作です。

[1] Official Google Data APIs Blog: Import Scans or Go Multilingual (2009-10-06 19:44:15 +09:00 版) http://googledataapis.blogspot.com/2009/09/import-scans-or-go-multilingual.html

[2] Comodo、OCRの誤認識により一部ドメインで正規所有者以外がSSL証明書を取得できる状態だった | スラドセキュリティ (2016-10-23 15:40:49 +09:00) http://security.srad.jp/story/16/10/23/0225240/

[5] 古典籍資料のOCRテキスト化実験 | NDLラボ, 2022-11-08T01:05:52.000Z, 2022-11-15T04:53:58.317Z https://lab.ndl.go.jp/data_set/r4ocr/r4_koten/

[6] GitHub - chineseocr/darknet-ocr: darknet text detect and darknet cnn ocr, 2023-07-15T09:40:43.000Z https://github.com/chineseocr/darknet-ocr

[7] >>6 精度はそれほどでもないとのこと。

[8] 近代雑誌OCR学習用データセット | 近代雑誌データセット, 2023-07-21T10:29:08.000Z, 2023-07-25T10:39:51.697Z http://codh.rois.ac.jp/modern-magazine/dataset/

[10] >>8 によれば CC BY で提供されています。

[11] 行の座標と文字列データが XML ファイルに入っています。サイズの大きな XML ファイルですが、テキストファイルとしての1行に画像データ内の1行の情報が入っているので、行指向ファイルとして処理できます。

[9] GitHub - ndl-lab/pdmocrdataset-part2: OCR処理プログラム研究開発事業において作成されたOCR学習用データセット, 2023-07-25T10:40:16.000Z https://github.com/ndl-lab/pdmocrdataset-part2