前回の記事(書籍を電子化し検索できるようにする)では、書籍を電子化して内容を検索できるようにしました。しかし、検索ができるのは開いている書籍の内容だけで、フォルダに入っている「全ての書籍の内容から検索」ができる訳ではありません。
これを実現するためのシステムを「全文検索システム」といいます。
書籍を電子化し検索できるようにする
電子化した書籍を全文検索する(windows編) <– イマココ
電子化した書籍を全文検索する(Linux)
それでは、全文検索システムを構築していきます。
Windows10で全文検索システムを構築する
Windows10のインデックス機能
Windows10には、指定したストレージ内のファイルをインデックス化し高速検索を実現する仕組みが組み込まれています。
この機能を適切に設定する事でWindowsの中でしか利用できませんが、全文検索システムを実現する事ができます。
Windowsのタスクバーにある、このアイコンから検索する事ができるようになります。
また、縦書きPDFファイルの内容もインデックス化する為に、Adobe Acrobat Readerをインストールしておきましょう。
インデックス設定
まずは、検索対象にしたいファイルをインデックス化する為の設定をします。
この画面で、検索対象にしたいファイルが設置されているフォルダを指定します。PDFの内容もインデックス化の対象とする為に、フィルタの確認をします。
拡張子 pdf のフィルタが、”Reader Search Handler”になっている事を確認します。このフィルタは、縦書きPDFの内容をインデックス化するのに必要です。異なっていたら、Adobe Acrobat Readerをインストール後に再度確認します。
“登録されているIFilterが見つかりません”と表示されている場合は
iFilter PDF search stops working on Windows 8 x64
を参考にして、レジストリエディタ(regedit.exe)で値を修正します。
内容をインデックス化する為に「プロパティとファイルのコンテンツのインデックスを作成する」が選択されている事を確認します。しばらく待つと、少しずつインデックスが作成されていきます。完了したら検索をしてみましょう。
検索結果
「ジーンズ」で検索してみると、縦書きPDFと横書きPDFの内容からも検索され、結果に表示されているのが分かると思います。
後は「開く」をクリックしてPDFを読むだけです。
タブレットなどからも検索したい!
自炊したPDFファイルは、Windows PC上だけで読むわけではありません。こたつで寝転がりながらタブレットで検索して読みたい場合もあるでしょう。
次回は、Linuxサーバ上に全文検索システムを構築し、タブレットなどからの検索を実現したいとおもいます。