今回のタスクでは実世界の問題を解決するためにプログラミングをどのように用いるのかを検証することを目的としています。
最新コンテンツ 機械学習を用いた画像分類プログラムもぜひお試しください。
PDFファイルから画像を抽出し、以下の3つのカテゴリに分類します。
PDFファイルのサンプルはこのページの下部から取得可能です。
今回取り扱うPDFファイルのタイプは以下の通りです。
文章:
図表:
画像
今回のタスクでは、OpenCVを利用します。
環境設定はInstall python2.7&OpenCVページとOpenCV Simple Exercise ページのリンクを参照してください。
画像に分類されるPDFファイルでは、さらに個々の写真に切り分けて保存します。
アウトプットは以下のような形式で行います。
テキストファイルは以下のようになります。
img_1.jpg
Text
img_2.jpg
Text
img_3.jpg
Diagram
img_4.jpg
Diagram
img_5.jpg
Image
extracted_001
Image
extracted_002 Image
コードを書き始める前に、画像とその他(文章・図表)を分類するには、データのどこに着目すれば良いか考えてみましょう。次に、文章と図表の違いはどこにあり、何に着目すれば分類できるか考えてみましょう。
PDFファイルから写真を抽出するためには、pdfimagesというLinuxコマンドを使用しましょう。
そして、ディレクトリからファイルをループで取り出す必要があります。
for directory, subdirectories, files in os.walk(source_folder):
ループはプログラミングで共通するメソッドです。 – Python for Loops