2026年4月27日月曜日

【ブラウザだけで日本語活字・くずし字・漢籍OCR】NDL(Kotenseki)OCR-lite Web AI Ultra Bluepond の紹介

2026年4月27日

Ultra Bluepond

NDL(Kotenseki)OCR-lite Web AI

 現代の活字から古典籍のくずし字、清代以前の漢籍まで — 国立国会図書館OCRエンジンによるブラウザ完結型自動書き起こし 

https://ndlocr-lite-web-ai-deluxe.vercel.app/

を使って見ました。

1.非常に便利な所は、複数枚の古文書があるPDFファイルも扱い事ができます。



 この機能は、国立国会図書館のデジタルコレクションを、PDFファイルでダウンロードしたものをそのまま翻刻できます。以前は、一々画面上で画像として切り出していた作業が必要なくなりました。

 また、フォルダーをして、フォルダー内の全画像ファイルを連続して翻刻できます。

 100枚以上のファイル数でも問題なく翻刻します。

2.また、複数枚の翻刻結果をまとめて、Wordファルに書き出せます。


 以前は、1枚、1枚、コピー&ペーストして纏めていたのですが、その手間がなくなりました。

 但し、翻刻の解釈時間に1枚10秒~30秒程度かかり、ちょっと時間がかかるようになりました。

 文字の配置がバラバラな古文書は後で、手直しに結構手間がかかります。認識度も、元資料によりますが、8割、9割程度かなと思います。自分で一文字ずつ手打ちするよりは、下原稿として十分使えます。最終的には人による手直しは必須です。

 講演会の時の質問にありましたが、

 「例会で古文書の解読の根拠に”AIの結果”だから」というのは現在のレベルでは全くありえません。

 現在はこのAIには、「みんなで翻刻」など人が翻刻した結果をAIに教えている段階です。

まだまだ、人間が主体です。


3.現代の活字の本も翻刻できます。翻刻はかなり正確です。印象ですが99%以上という感じがします。

 縦横の文章も認識します。文章が段落になっていても、大丈夫なようです。

 非常に便利だと思います。

0 件のコメント:

コメントを投稿

登録 コメントの投稿 [Atom]

<< ホーム