PDFファイルから文字を抽出

メモ帳を利用した文字列の流用

 

 いろんな原稿を書く際に、PDFファイルの文字の部分をコピーして流用できる。

WEBサイトなどをそのままコピーすると、文字列そのものは問題ないものの、罫線や文字のサイズ、装飾(例えば、フォントのタイプ、太字、色、その他)、リンクなどいろんな属性を引き継いでしまうので、ワードやエクセルに貼り付けて活用する際に不都合なことが多い。

 

 

左のページをPDFファイルにすると2ページになる。

着色部から文字抽出を試みると、右のようなメモ帳を作成することができる。

赤枠部分は特殊な入力のため、着色部を文字列として抽出した後、もう一度赤枠部分を抽出して、挿入すると、このような結果になり

ワードやエクセルで利用しやすいものをつくることができる。


オリジナル文書

PDFファイル化

文字抽出結果


 

画像からの文字抽出は不可能!

 

 このように、WEB上の各サイトやPDFファイルから文字列の抽出が可能である。

しかし、画像の中にある文字列抽出は不可能である。

試しにこのHPのトップページに移動し、右上の部分で試していただくと、

よく理解できる。着色部の下の文字列は、文字をコピーするためのハイライトができるが、着色部の文字列は選択(ハイライトすること)ができない。

すなわちこの部分は、画像として入力されていることを意味する。

上の文字抽出作業をいかにビデオにしておいたので、参考にしてこの手法を活用されるといいだろう。