PR

【第1回】ローカルLLMで作る「触れる歴史」:個人開発で挑んだ公文書アーカイブ化の全貌

2026/3/28後期日中戦争三部作読書会:【第一回】日中戦争そのものを捉え直す

スポンサーリンク

記事の要約と図解

【結論】 政府の公文書をAIで読み解くシステム「赤木文書アーカイブ」の開発を通じ、歴史的事実を「ルック&フィール」のまま残し、共有することの圧倒的な重要性が浮き彫りになった。本記事は、その開発の裏側にある執念と、公文書が持つ「統治行為」としての本質を紐解く。

【ポイント3選】

  1. 大手APIの理不尽なコスト障壁を打破するため、ローカルLLM(オンプレミス)での稼働という泥臭い手法を選択。
  2. 単なるテキスト化による「認知のズレ」を防ぐため、AI-OCRを駆使して黒塗りや紙の質感まで完全再現する異常なこだわり。
  3. システム開発の苦闘を経て実感した「文書が残ること自体が統治行為である」という歴史的教訓と、日中戦争の暴走を直視する意義。
スポンサーリンク

【徹底解説】赤木文書アーカイブ開発の裏側と公文書の真の価値

国家の意思決定の軌跡である「公文書」。その膨大なデータから真実を読み解く作業は、これまで多大な労力を要するものであった。しかし今、AI技術の発展がその壁を打ち破ろうとしている。 本記事では、著述家・菅野完氏が約1ヶ月半を費やし、個人開発でローンチに漕ぎ着けた「赤木文書アーカイブ(AI検索システム)」の裏側に迫る。大規模言語モデル(LLM)のAPIコスト問題を「ローカル環境の構築」で乗り越え、AI-OCRを駆使し、単なるテキストデータではなく「紙の実物の質感(ルック&フィール)」までをも再現した、執念の開発ストーリーである。 一個人が最新テクノロジーを駆使して「歴史の記録」に光を当てる時、我々に見えてくる「統治行為の本質」とは何か。技術と社会課題が交差する、熱き開発の記録をお届けする。

導入:波乱の幕開けとなった読書会と本日の主題

ツイキャスのシステム不調と「ゲーム配信」のハプニング

本日の「後期日中戦争三部作読書会」第1回目は、予想外のトラブルからの幕開けとなった。ツイキャス側のサーバー不調により、タイトルの変更が一切できず、まるで私が「ゲーム配信」でも始めるかのような設定のまま配信をスタートせざるを得なかったのだ。

しかし、勘違いしないでほしい。私はゲーム配信などするつもりは毛頭ない。本を読み、歴史の真実に迫るための読書会だ。この予想外のハプニングはご愛嬌として、本題に入る前に、私がこの1ヶ月半、血反吐を吐く思いでしこしこと作り上げてきたあるシステムの発表をさせてほしい。

1ヶ月半の激闘:ローカルLLMで挑んだ「無料公開」への道

クラウドAPIのコストの壁とオンプレミス環境の選択

私がここ最近、何にかかりきりになっていたか。それは「赤木文書アーカイブ」というAIチャットボットシステムの開発だ。赤木さんの残した公文書を読み込み、AIが皆さんの質問に答えるという画期的なシステムである。

しかし、ここに巨大な壁が立ち塞がった。通常、OpenAIやAnthropicなどのAPIを使ってシステムを組むと、1トランザクションあたり0.001ドルといったコストが容赦なく吸い取られていく。考えてもみてほしい。これは政府の公文書だ。国民が知るべき事実を読み解くためだけに、いちいち課金されるなど、到底納得できるものではない。アホらしいにも程がある。

だから私は、メルマガ読者やサロンのメンバーに無料で使ってもらうため、自らの足元にあるパソコンにLLM(大規模言語モデル)を突っ込み、オンプレミス環境でシステムを構築するという泥臭い手法を選んだのだ。もちろん代償はある。私がOBSを立ち上げて配信している間は、貧弱なPCのCPU使用率が99%に達し、システムは「プスンプスン」と音を立てて止まってしまう。個人開発の限界と言われればそれまでだが、これが「無料公開」にこだわった私の執念の形である。

「読者限定」の壁:ユーザー認証システムの構築と苦悩

さらに私を悩ませたのが、ユーザー認証の仕組みだ。このシステムは、私を支援してくれているメルマガ読者、あるいはオンラインサロンのメンバーのいずれかに限定して先行公開する。

AIシステムを動かすコーディングや仕組み自体は、そこまで難しくなかった。本当に大変だったのは、「1ページごとの要約をどう見せるか」「メルマガ読者だけをどう判別してシステムを使わせるか」といった全体の構成を考えることだ。実際、ああでもないこうでもないと試行錯誤し、完成までに1ヶ月半もの膨大な手間がかかってしまった。

スポンサーリンク

AI-OCRが実現する「紙の記憶」の完全再現

テキスト化の罠:認知のズレが議論の正確性を奪う

システムを組む上で、一番楽な方法は何か。PDFを単にOCRにかけ、プレーンなテキストのウェブページとして羅列することだ。最初は私もそうしていた。しかし、それではダメなのだ。

実物の「赤木ファイル」を目にしたことがある人間なら分かるはずだ。あの紙の質感、背後に残る黒いプチプチのノイズ。その視覚情報が頭にこびりついている状態で、綺麗なテキストデータだけを見せられると、記憶と目の前の見え方の違いから、脳が一瞬パニックを起こす。コンマ3秒のラグが生じ、思考が追いつかず、議論の正確性が決定的に失われてしまうのである。同じ本でも、単行本で読んだ記憶と文庫本で読み直した時の違和感のようなものだ。

スポンサーリンク

黒塗りファイルの「ルック&フィール」を蘇らせる執念

だから私は、画像化という逃げ道を断ち、AI-OCRを活用してテキストベースでありながら「元の紙のファイルの質感」を再現するようAIに組み直させた。あの重苦しい「黒塗り」の事実を正確に視覚化し、黒いプチプチだけを除去しつつ、実物のファイルで議論しているのと同じ「ルック&フィール」を蘇らせたのだ。

単なるテキスト化ではない。事実の生々しさを、手触り感を伴って読者に届ける。これこそが、このアーカイブの真の価値であり、私の狂気じみたこだわりの結晶である。

スポンサーリンク

結語:開発の果てに見えた「統治行為」としての公文書

このシステム開発と、赤木文書という血の通った、しかしあまりにも重く苦しい公文書に向き合う中で、私はある確信に至った。それは、「文書が残ること、それ自体が統治行為である」という厳然たる事実だ。

ごまかし、隠蔽し、改ざんする権力と対峙するには、記録をそのままの形で残し、直視するしかない。この「記録の重要性」への痛切な実感は、まさにこれから始まる「後期日中戦争」という、大日本帝国の無能と暴走の歴史を紐解く読書会へと、シームレスに繋がっていく。過去の文書を読み解くことは、現代の腐敗を撃つ最強の武器なのだ。次回以降、愚劣な意思決定がどのような悲劇を生んだのか、冷徹な事実を突きつけながら、徹底的に語り尽くそう。

コメント

タイトルとURLをコピーしました