[3] 
[DFN[OCR]]
は、
[[画像]]から[[文字列]]を得る操作です。


[1] [CITE[Official Google Data APIs Blog: Import Scans or Go Multilingual]]
([TIME[2009-10-06 19:44:15 +09:00]] 版)
<http://googledataapis.blogspot.com/2009/09/import-scans-or-go-multilingual.html>

[2] [CITE@ja[Comodo、OCRの誤認識により一部ドメインで正規所有者以外がSSL証明書を取得できる状態だった | スラド セキュリティ]]
([TIME[2016-10-23 15:40:49 +09:00]])
<http://security.srad.jp/story/16/10/23/0225240/>

[4] [[OCR書体]]

[5] [CITE@ja[古典籍資料のOCRテキスト化実験 | NDLラボ]], [TIME[2022-11-08T01:05:52.000Z]], [TIME[2022-11-15T04:53:58.317Z]] <https://lab.ndl.go.jp/data_set/r4ocr/r4_koten/>

[6] [CITE@en[GitHub - chineseocr/darknet-ocr: darknet text detect and darknet cnn ocr]], [TIME[2023-07-15T09:40:43.000Z]] <https://github.com/chineseocr/darknet-ocr>

[7] >>6 精度はそれほどでもないとのこと。

-*-*-

[8] [CITE@ja[[DFN[近代雑誌OCR学習用データセット]] | 近代雑誌データセット]], [TIME[2023-07-21T10:29:08.000Z]], [TIME[2023-07-25T10:39:51.697Z]] <http://codh.rois.ac.jp/modern-magazine/dataset/>

[10] >>8 によれば [[CC BY]] で提供されています。

[11] [[行]]の座標と文字列データが [[XML]] ファイルに入っています。
サイズの大きな [[XML]] ファイルですが、[[テキストファイル]]としての1行に画像データ内の1行の情報が入っているので、
行指向ファイルとして処理できます。

-*-*-

[9] [CITE@en[GitHub - ndl-lab/pdmocrdataset-part2: OCR処理プログラム研究開発事業において作成されたOCR学習用データセット]], [TIME[2023-07-25T10:40:16.000Z]] <https://github.com/ndl-lab/pdmocrdataset-part2>
