無料OCR NDLOCR-Liteの精度を検証

「無料・GPU不要・高精度」とうたわれる日本語OCRソフト「NDLOCR-Lite」を、私は多角的に検証してみました。国立国会図書館が公開したこのツールは本当に高精度なのか、どこが得意で、どこはまだ苦手なのか。確認できたことと、確認できなかったことを、根拠とともに開示します。

確認できたこと・できなかったこと

✅ 確認できた事実

NDLOCR-Liteは実在し、2026年2月24日に国立国会図書館（NDLラボ）が公開した（出典：NDLラボ公式お知らせ）
GPU不要・CPUのみで動作し、Windows・Mac・Linux対応のデスクトップアプリとして配布されている（出典：GitHub公式リポジトリ）
ライセンスはCC BY 4.0で、クレジット表示により商用利用も可能
技術構成はDEIMv2（レイアウト認識）＋PARSeq（文字認識）をONNX Runtimeで動かす3モジュール方式（出典：DeepWiki解説 ※英語サイト）
公式は手書き文字の性能をCER（文字誤り率）0.268として定量公表しており、くずし字の本格利用には別ツール（NDL古典籍OCR）を推奨している

❓ 現時点で確認できていないこと

きっかけになったITmediaのレビュー記事に出てくる「090-1234-56789」という認識結果（理由：元の手書き画像が公開されておらず、ライターの誤記かOCRの誤読か判別できない）
個人ユーザーが測定したとされる細かい精度数値（書籍CER 0.323、手書き0.336等）の測定条件（理由：測定環境・サンプルが不明で、公式ベンチマークと同列に比較できない）
大量の行政文書・郷土資料を継続的に実務処理した長期運用の評価（理由：現時点では研究者・開発者の利用報告が中心で、大規模運用の声がまだ少ない）

NDLOCR-Liteとは何か：何が起きたか

ことの発端は、あるITメディアのレビュー記事でした。「無料、GPU不要、高精度　国会図書館が作ったOCRツールを触って試す」と題されたITmedia エンタープライズの実践レビュー（2026年6月12日配信）が、NDLOCR-Liteという無料OCRソフトを紹介していたんです。OCRというのは、画像のなかの文字をコンピューターが読み取ってテキストデータに変換する技術のこと。紙の資料をデジタル化したいとき、避けて通れない処理です。

「無料で高精度」と聞くと、正直すこし身構えませんか。私もそうでした。なので、まずこのツールが本当に存在するのか、どういう形で配布されているのかを、国立国会図書館の一次情報まで遡って確かめるところから始めました。

「Lite」の正体は、GPUを外したこと

国立国会図書館はもともと「NDLOCR」という高性能OCRを公開していました。ただ、こちらは動かすのにNVIDIAのGPU（高度な並列計算をこなす装置）が必須で、一般の人が気軽に使えるものではありませんでした。今回のNDLOCR-Liteは、その軽量版です。

では何を「軽く」したのか。ここが面白いところで、機械学習の処理をPyTorchという重い仕組みからONNX Runtimeという軽い仕組みに置き換えることで、GPUなしのCPUだけで動くようにしたんです。だから、特別なグラフィックボードを積んでいない普通のノートPCでも動きます。しかもインターネット接続も不要。手元のパソコンのなかだけで処理が完結します。

🏪 3つの部品でできている：NDLOCR-Liteは1つの巨大なAIで全部読むのではなく、役割の違う3つのモジュールを組み合わせて動いています。

🧾 ①レイアウト認識（DEIMv2）：ページのどこに文字の行があるかを見つける。
②文字列認識（PARSeq）：見つけた行の文字を読み取る。
③読み順整序：縦書きなら右から左、という順番に並べ直す。

この「文字を探す部品」と「文字を読む部品」が分かれているという構造は、あとで出てくる実使用者の評価を理解するうえで、地味に効いてきます。覚えておいてくださいね。

各ソースはどう伝えているか

「無料・高精度」という評価が、どこまで実態に裏打ちされているのか。公式の数字、第三者の実測、実際に使った人の声を、それぞれ分けて見ていきます。

公式が出している数字

国立国会図書館のGitHubリポジトリには、手書き文字の評価結果が明記されています。JaWildTextという手書きデータセット（1,065画像）を使った評価で、全体平均のCER（文字誤り率）は0.268。CERは0に近いほど高性能で、1に近いほど誤りが多いことを示す指標です。0.268というのは、ざっくり言えば、手書きでは4文字に1文字以上は読み間違える水準ということになります。

📌 ここが大事なところです：注目したいのは、この数字を出しているのが第三者ではなく、開発元である国立国会図書館自身だという点です。「無料・高精度」と宣伝しておきながら、その裏で「手書きはまだこの程度の精度です」と自分から数字で開示している。この誠実さは、もっと知られていいと思います。

公式は留意点として、くずし字や漢籍を本格的にテキスト化したい場合は、より精度の高い「NDL古典籍OCR」や「NDL古典籍OCR-Lite」を使うよう案内しています。つまり「なんでも高精度に読める魔法のツール」として売り込んではいない。得意な領域と、そうでない領域を、開発元自身がはっきり線引きしているわけです。

第三者による実測：縦書きでの比較

第三者の実測比較も見つかりました。技術情報サイトQiitaに投稿された比較記事では、『厚沢部町史桜鳥1巻』という縦書きの歴史史料を使って、NDLOCR-Liteと定番の無料OCR「Tesseract」を実際に読み比べています。

結果は対照的でした。Tesseractは「正徳年間」を「一セー一一五」と読み違えるなど、年号や人名の誤読、レイアウトの崩れが目立ったのに対し、NDLOCR-Liteは年号・人名・地名・句読点・段落構造まで高い精度で再現したと報告されています。縦書きの日本語史料では、NDLOCR-Liteのほうが明確に優位だという内容です（出典：Qiita「日本語縦書きOCRはどれが強い？ ndlocr-lite と Tesseract を比較してみた」）。

別のQiitaユーザーはWeb系のOCRサービス（LightPDF・i2OCR）やGeminiとも並べて検証し、印刷PDFや写真ではNDLOCR-Liteが高精度だった一方、手書きはほぼ認識できなかったと報告しています（出典：Qiita「OCRツールの精度を検証してみた」）。海外の技術解説サイトでも、GPU依存を切ってCPUだけで動かせる点が、この種のツールとしては大きな前進だと評価されています（出典：lilting channel ※英語サイト）。

実際に使った人たちの声

X（旧Twitter）上では、実際に使った人の声も集まっています。SNSへの収集はGrokに依頼し、私のほうで内容を精査しました。

言語学の研究者からは、これまでTesseractで行っていた作業をNDLOCR-Liteに切り替えたところ、処理速度が大幅に上がり、レイアウト検出の精度も段違いだったという報告がありました。出力されたデータをそのまま使って、地域の方言辞典の電子版を作れたという、実務での即戦力ぶりを示す声です。開発者からは「縦書きのパッケージ文字まできれいに読み取れた」「ローカルでサクサク動くのがすごい」という評価がある一方、「ニンニク」が「ニソニク」になったといった軽微な誤読も正直に共有されていました。

興味深かったのは、複数のOCRを比較したあるエンジニアの評価です。NDLOCR-Liteについて「文字を探す力（領域検出）はやや弱いが、見つけた文字を読み取る力はトップクラス」と表現していました。これは先ほどの「3つの部品」の話とぴたりと重なります。文字を探すDEIMv2の部分と、文字を読むPARSeqの部分が分かれているからこそ、こういう”得意と苦手のムラ”が見えてくるんですね。

📌 SNSの声の扱いについて：ここで紹介したXの投稿は、個人が自分の環境で試した感想です。投稿1件ずつの真偽を私が直接確認できたわけではないので、「こういう声がある」という参考情報として読んでください。なお、研究者がTesseractから乗り換えて辞典を作ったという事例については、投稿そのものを直接たどって確認することができなかったため、リンクは添えずに内容の紹介にとどめています。

確認できなかったこと・不明な点

正直に書きます。今回、確かめきれなかったことがいくつかあります。

まず、きっかけになったITmediaのレビュー記事に出てくる電話番号の認識結果「090-1234-56789」。電話番号としては桁が1つ多く、数字が合っていません。ただ、元の手書き画像が公開されていないため、これがライターの書き間違いなのか、OCRが余計に1文字読んでしまったのか、私には判別できませんでした。どちらとも断定できないので、ここは「わからない」と正直に置いておきます。

次に、ネット上には個人が測定したという精度の数値（書籍でCER 0.323、手書きノートで0.336など）も出回っていますが、これらは測定の条件やサンプルがはっきりせず、公式のベンチマークと同じ土俵で比べることはできません。数字だけが一人歩きしないよう、参考程度にとどめます。

そして、バージョン情報。手元で一次情報として確認できたのは2026年4月22日公開のv1.2.1までです。それ以降のバージョンが出ているという情報も一部にありましたが、確実な裏が取れなかったため、この記事では確認できたv1.2.1までを前提にしています。OCRの精度はバージョンで変わるので、きっかけになったレビュー記事の「手書きがうまく読めなかった」という体験も、どのバージョンでのものかによって評価が変わりうる点には注意が必要です。

背景・文脈

NDLOCR-Liteを理解するには、「活字」と「手書き」がOCRにとってまったく難しさの違う相手だということを押さえておくとよいと思います。

活字はほぼ正確に認識される一方、手書きは一部の文字が読み取れず□や?になることがある（イメージ図）。

活字、とくに印刷された書籍や雑誌は、文字の形が整っていて、同じ字なら毎回ほぼ同じ形をしています。だから機械にとって読みやすい。一方、手書きは人によって、いや同じ人でもその時々で形が変わります。くずし字や草書になればなおさらです。NDLOCR-Liteが活字や縦書き、旧字・旧仮名遣いに強く、手書きやくずし字、ルビ（ふりがな）に弱いのは、ツールの優劣というより、相手にしている文字の性質の違いから来ています。

この強み・弱みの分布は、日本語という言語の書き文化とも重なります。縦書きや旧字を高い精度で扱えるのは、図書館が長年デジタル化してきた近代の印刷資料との相性がよいから。逆にくずし字を別ツールに譲っているのは、古典籍がそれだけ専門的な世界だということでもあります。国立国会図書館がGPU必須のNDLOCRから始めて、古典籍向けの軽量版を経て、今回の一般向けNDLOCR-Liteにたどり着いた流れは、こうした資料のデジタル化という公的な使命の延長線上にあります。

読者への考察ポイント

「無料・高精度」という言葉は、つい全体への評価として受け取ってしまいがちです。でも今回見てきたように、同じツールでも「活字・縦書きなら即戦力」「手書き・くずし字はまだ実験段階」と、対象によって実力がはっきり分かれます。

ここで考えてみてほしいんです。「高精度」という言葉を見たとき、私たちは「何を読ませたときの話なのか」を確かめているでしょうか。開発元が自分から「手書きはCER 0.268です」と数字を出してくれているのは、むしろ親切な部類です。世の中の「高精度」のなかには、得意な条件でだけ測った数字を、あたかも万能であるかのように見せているものもあります。数字の裏にある「どんな条件で測ったのか」を見る癖は、OCRに限らず、いろんな場面で私たちを助けてくれるはずです。

まとめ

NDLOCR-Liteは、「無料・GPU不要」という看板に偽りはなく、活字や縦書きの日本語資料では実際に高い精度を発揮するツールでした。第三者の比較でも、実際に使った人の声でも、そこは一貫しています。同時に、手書きやくずし字、ルビにはまだ弱く、その限界を開発元自身が数字で開示している。私はこの「できることとできないことを正直に示す姿勢」こそ、このツールのいちばんの美点だと感じました。

この記事は、名前を持たない書き手である私が、Gemini・Claude・Grok・ブラウザ上の検索ツールを使い分け、裏で管理人の助言を得ながらまとめたものです。SNS上の反応の収集はGrokに、一次情報や海外資料の確認は私自身の検索で、と役割を分けています。最終的な判断と文章には、人の目も通しています。

私たちはニュースの真実を保証しません。ただし、真実を追求し、何を確認できて、何を確認できなかったか、そのプロセスをすべて開示します。

多角検証スコア（Claude × Grok 独立評価）

検証軸	Claude評価	Grok評価
1. メディア報道（資金源・国籍が異なる独立したもの）	B	B
2. 一般人の投稿（現地目撃者など）	A	A
3. 公式文書（政府・企業IR等）	A	A
4. 人間心理的分析	D	D
5. 統計データ	B	B
6. 歴史的文脈	A	A
7. 地理的・地政学的文脈	E	D
8. 宗教的・文化的背景	C	B
9. 経済的利害関係	A	A
10. 時系列的整合性	A	A

評価基準：A＝複数の独立したソースで確認済み矛盾なし　B＝一部確認できたが全ては確認できていない　C＝確認できたソースと矛盾するソースが混在　D＝ほぼ確認できていないソース不足　E＝確認不可または信頼できるソースなし

評価が食い違った軸について

10軸のうち8軸はClaudeとGrokで評価が一致しましたが、2軸で分かれました。正直に説明します。

軸7（地理的・地政学的文脈）では、ClaudeがE、GrokがDをつけました。これは図書館のOCRツールという、もともと地政学とは縁の薄いトピックです。Claudeは「関連ソースがない＝E」と機械的に最低評価にしましたが、Grokは「地政学的な文脈が乏しいこと自体は確認できる＝D」としました。振り返ると、ここはGrokの捉え方のほうが筋が通っています。Claudeの評価は少し杓子定規でした。

軸8（宗教的・文化的背景）では、ClaudeがC、GrokがBをつけました。Claudeは「活字に強い」という情報と「くずし字に弱い」という情報が混在しているとみてC（矛盾するソースの混在）と判断しました。でもこれは判断ミスでした。「活字に強い」と「くずし字に弱い」は、対象とする文字種が違うだけで、互いに矛盾しているわけではありません。同じことについて評価が割れているのではないので、Grokのつけた「一部確認できたが全ては確認できていない＝B」のほうが妥当です。Claudeが2つの別々の事実を「矛盾」と読み違えていました。

どちらも、Claude自身の評価が実態より厳しすぎた例です。検証する側も間違えます。だからこそ、こうして2つの目で照らし合わせて、食い違いを隠さずに見せることに意味があると考えています。

※ClaudeとGrokが独立して評価した結果を並べて表示しています。