楽天市場
Amazon.co.jp
・ ・ ・
>>Adobe
>>SONY
>>Panasonic
>>Manfrotto
・
>>楽天市場>>ビデオ近畿
>>SYSTEM5
>>kakaku.com
【Next零 ;Key Contents】
reTMCD
*
Eye-One Display2
レンタル
*
非公式データバンク
EDIUS Bench
*
HVR-S270J
関連レポート
Article offer cooperation
* * *
ACC*Software Leading...
Hosting Management by
* * *
〜 書籍電子化計画( Canon DR-2050CII レポート) 〜
(提出日:06/12/31)
アナログ映像のデジタル化という作業は、当サイトの読者の皆なら日常的に行っていることかもしれない。
そのことによるメリットは、長期保存と省スペース化だろう。
そして、アナログ映像と同様に長期保存と省スペース化を求められる物に、雑誌・書籍などの紙媒体が家庭内にはあるのではないだろうか?
特に専門誌などは時間が経っても技術的な記事内容に翳りはなく、教科書のようにいつまでも手元に置いておきたくなってしまう。
そして、その行為の積み重ねが本棚を圧迫し、効率的な書籍の整頓を妨げてしまう様になる。
筆者の本棚も、雑誌、書籍、小説、コミックス……などで、いずれの本棚も最早許容量をオーバーしており、その一部は今まで段ボール箱などに詰め込んでストックしていたものの、いよいよ箱を置いておくスペースも消費し尽くしてしまった。
そこで、筆者宅では紙媒体の電子化プロジェクト「書籍電子化計画」を立ち上げ、本棚から文字通り溢れ出している本類をデジタル化する運びとなった。
■ドキュメントスキャナという選択
紙のデジタル化に用いる機器と言えばスキャナがある。現在では、1万円程度のスキャナでも紙をスキャニングするだけなら十分な性能を持っており、且つコンパクトである。
しかし、普通のスキャナでは今回の書籍電子化計画において問題を有する。
それは、一冊あたり百数ページに及ぶ書籍や雑誌を、いちいち一枚ずつスキャナにセットしていくのか? という手間の問題である。
当然、本なので裏表が存在し、紙1枚で2ページのスキャンを実施することになる。
これを全部一枚一枚、手でスキャナの読み取り面にセットし、スキャニングすれば裏を向けてまたスキャン。終われば次のページをセットして……という事をまさか続けるわけにはいかないだろう。
そこで、今回新たに導入したのが『ドキュメントスキャナ』と言うカテゴリーに括られるスキャナである。
通常のスキャナは「フラットベッドスキャナ」と呼ばれるが、そちらは原稿(写真や版下)の色や柄を正確に忠実に読み取り、電子化する能力に長けている。
一方、この『ドキュメントスキャナ』は、再現性はそこそこにして大量の紙を一括して効率よく電子化することに主眼を置いた製品である。
今回導入したのは、Canon DR-2050CII。
このドキュメントスキャナを使って、一気に書籍の電子化を進めていきたい。
■ドキュメントスキャナの相方
ドキュメントスキャナの特徴はオートフィーダーに入れた複数枚の紙を自動的に吸い込み、両面スキャンをして吐き出すという単純なものだ。プリンタに紙を入れると次々に紙を吸い込んで印刷して吐き出す……というのと同じである。
しかし、複数枚の紙を勝手にドンドン読み込んでくれるという機能こそ、フラットベッドスキャナ との最大の相違点だろう。
しかし、ここで1つクリアしておかねばならないハードルがある。
製本されている“書籍”を如何に一枚一枚の“紙”にするかである。
流石に自動ページめくりなどの機能はないので、飽くまでも1枚の紙にしてからドキュメントスキャナに放り込まないと話が進まない。
週刊誌などは「中綴じ」と言われる方法で綴じられている物が多く、大抵はその「中綴じ」の「針金綴じ」と言われる大きなホッチキス針などで止められている物が多い。
この場合は、ホッチキスの針を抜いてやれば、一枚一枚の紙となり、スキャンしやすい状態になる。
しかし、「中綴じ」の場合、表紙と裏表紙が一枚の紙として印刷されており、1ページ目と最終ページが一枚の紙……となっているので、そのままの状態でスキャンを始めると、電子化された物は乱丁などという言葉では表現できないような物になってしまう。
ビデオαなどの雑誌は、「無線綴じ」や「あじろ綴じ」と言われる物で、こちらは糊が背の部分に付けられており、それで接着固定されている。
こちらは、簡単にはバラせない。
やはり、製本された本を、単なる“紙”に戻す事が必要になってくる。
そこで、ドキュメントスキャナを購入するならば一緒に購入すべきは『裁断機』である。
一般的な雑誌ならば、A4長手方向まで対応できる裁断機を導入すれば、ほぼ事足りるだろう。
PULS社製の“PK-513”という裁断機を購入した。
■裁断する
では、裁断してみる。今回の“生け贄”は、写真工業出版社 ビデオα別冊 デジタルビデオ編集ガイドブック(発行:1997年12月20日)である。
こちらの本は月刊誌のビデオα同様に「無線綴じ」されている。
ページ数は、表紙〜裏表紙で176頁ある。
“PK-513”に装填し、切断ポイントを調整する。
“PK-513”には「カットライン表示機能」があり、裁断ラインを示すための昭光がスイッチを入れると点灯し、光のラインが裁断機の刃が下りる箇所に引かれる。
それを目安にして、位置を調整する。
位置が決まれば「裁断」。
88枚176頁がいとも簡単に切断される。
素晴らしい切れ味だが、安全機能はしっかりしており、見えない刃と安全ロックが作業者の安全を確保している。
切断面は極めて綺麗である。
写真は切断後の物だが、どちらの端が切断面か判るだろうか?
切断面を見ただけでは全く判らないぐらいに綺麗に切れている。
■スキャンから OCR+PDF化
“Canon DR-2050CII”には、スキャニング連動ソフトとして「CapturePerfect 3.0」「Adobe Acrobat 7.0 Standard」「やさしく名刺ファイリング エントリー2」「e.Typist エントリー2」が同梱されている。しかし、大量の書籍の電子化には「CapturePerfect 3.0」さえあれば大体事足りるだろう。
また、「ジョブ登録ツール」を使えば、“Canon DR-2050CII”本体のスキャンボタンを押した際に処理する「解像度」「用紙サイズ」「保存形式」などのスキャン設定を登録でき、ボタン1つで簡単に書籍の電子化が行える。
この「ジョブ登録ツール」に設定を保存しておけば、スキャンして自動的に OCR処理 + PDF化 という作業もボタン一つで行える。
OCR + PDF 化 のメリットは、普通に誌面を読む際は PDF の表面的な字面や図形・写真を追い、特定の文字列を探したい場合は、OCR処理されたテキストを検索によって瞬時に見つけ出すことが可能であるという点だろう。
OCR技術は日々進化しつつあるものの、識字率は残念ながらまだ100%とはいかないのが現状だ。
であるから、OCRで抽出されたテキストだけを読むのは、誤字の発生により辛い場合がある。
しかし、検索でその文字列を求めるぐらいであれば十二分に実用的な域に達している。
一方、PDFは最も一般的な電子文書フォーマットである。
文字や画像を元のレイアウトのまま維持でき、PCは勿論のこと、最近では携帯電話での閲覧も可能になっている。
PDFファイルを開いた場合の表面上のデータは一枚の画像ファイルの様な物なので、元の書籍に書かれていたとおりの文字が並ぶ。
その裏に、OCR処理により認識された文字データが埋め込まれている事になる。
とにかくもボタン一つで、活用性の高い電子文書化を行えるのであるから、ほとんど手間を掛けずに、書籍のデータ化を行うことができのは有り難い。
細かな修正や編集などは、同梱の「Adobe Acrobat 7.0 Standard」を使って PDF を編集してやれば良い。
■スキャニング速度
では、大量の書籍をスキャニングし OCR処理+PDF化するのにはどれぐらいの時間が掛かるのだろうか。今回は、スキャン解像度 300dpi、OCR処理あり、ファイル形式PDF、用紙サイズ B5、モード 265階調スムージンググレー 読み取り面 両面――という設定で、2枚4ページの書面をスキャンしてみた。
<ダウンロード>
実際の、処理の様子を見ていただいたが如何だろうか?
手間としては、正にボタン一つのなので簡単だろう。
あとは、この処理時間を長いと感じるか短いと感じるかだ。
様々なレビューを読んだところでは、モノクロ書類の OCR + PDF に関しては、この“Canon DR-2050CII”は最速の部類に入るらしい。
一方、カラースキャニングは決して早いとは言えないので、その点は覚悟したい。
カラーページの多い雑誌などは、寝る前に“Canon DR-2050CII”に原稿を放り込んで、スキャンボタンを押して就寝。
起床すれば当然すべて終わっているので、出かける前にまた一冊分を放り込んでボタンを押しておく。
■ドキュメントスキャナがある生活
“Canon DR-2050CII”を購入したのが、12月27日。それ以来、今日までほぼ24時間フル稼働している。
「中綴じ」本の上手な裁断方法もだんだん身に付きつつある。
現在は、もう少し最良の設定や最良の裁断方法を模索している最中であり、デジタル化されている書籍は殆どが重要度の低い週刊誌である。
スキャナの機嫌が良いと、かなりの量の紙を本当にボタンを一回押しておくだけで最後まで一気にデジタル化してくれるのだが、紙との相性なのか何なのか、機嫌悪いときは徹していて調子が悪く、何度も原稿をセットし直し、ボタンを押してスキャンしている。
これは、切り方や入れ方が悪いのか、スキャナの性能なのかは俄には原因を切り分けにくいところである。
導入直後より“Canon DR-2050CII”は USBサーバを介することにより我が家の全PCから利用可能であるが、基本的には本体ボタンを押すことで、メディアサーバである Meixin に転送される様にしてある。
そのため、今では動画、音楽は勿論のこと、書籍データもすべてサーバに集中するようになっており、家庭内でのマルチユースが可能である。
今後の計画では、2000年以前のビデオαの電子化、ビデオサロン全巻の電子化を予定している。
一方、小説やコミックスなどは当面はデジタル化しないだろう。
雑誌などは「データ」「情報」としての側面が大きく、必要なのはその中身だけであるという傾向が強いが、小説などは「読み物」という性格が第一であり、書籍の状態で読書するというのが「小説を読む」という一つのスタイルであるように思う。
それでも、雑誌類の電子化だけでも我が家の本棚占有の30%前後を開放することになり、省スペース化に大きく貢献することは間違いない。
また、電子化・データ化された誌面は今後、様々な活用方法と場面が考えられる。
現代人にとって、文字情報というのは最も身近で且つ最良の教師である。
己を育てる上でも、どんどん文字情報を確保し、有効に利用していきたい。
<W-ZERO3[es]で読んだ PDF>