お役立ち

pdfminerのインストール

  • このエントリーをはてなブックマークに追加

pdfminerとは?

pdfminerはPythonでPDFのテキストの抽出、解析を行うライブラリです。

ソースのダウンロード

git clone https://github.com/euske/pdfminer/

pdfminerのソースをダウンロードしましょう。

gitが入ってない人は下記のリンクへ飛んで”Clone or download”をクリック→”Download ZIP”でソースをダウンロードしましょう。

pdfminerのソース

cd pdfminer

文字コードの読み込み

LinuxまたはMacの場合

make cmap

Windowsの場合

mkdir pdfminer\cmap
python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt

pdfminerのインストール

python setup.py install
  • このエントリーをはてなブックマークに追加