2017年08月15日

楽天BooksのISBNデータを用いてPythonによるPDFファイル名の変換

結構前に本があふれて困っているという話をしましたが、売却するのではなく手元にデータだけでも残しておきたい本は「ScanSnapとかで自分でSCANをする」or「BOOKSCANなどの業者に頼む」などの対応が必要となります。実はS1500は持っているのですがSCAN後のPDFデータのDefaultの名前は日時が割り当てられますし、BOOKSCANでもタイトル変更には追加料金がかかります。

このあたりの手間を何とかできないかなというので楽天BOOKSのデータを用いたPDFファイル名の変換になります。ちなみに注意点としてはOCRでISBNが文字化されている前提での処理となります。

実行結果

というわけで結果からですが、下記の通り、ISBNがPDF内部に見つけられて、楽天BookSのページでタイトルが見つかった本に関してはファイル名が変更されています。

実行前
20170712_python_0.jpg

実行後
20170712_python_1.jpg

ちなみにDebug用の出力は下記の通りです。
> python.exe chPdfFile.py bookdata
[Input File] : 0000.pdf [Result] ISBN:9784873113265, Title:CとGNU開発ツールによる組み込みシステムプログラミング
[Input File] : 0001.pdf [Result] ISBN information wasn't found
[Input File] : 0002.pdf [Result] ISBN:4839919844, Title:OS自作入門30日でできる!
[Input File] : 0003.pdf [Result] ISBN:9784063107937, Title:げんしけん(11)二代目の弐(アフタヌーンKC)
[Input File] : 0004.pdf [Result] ISBN:9784757521421, Title:ちょこっとヒメ(3)(ガンガンWINGコミックス)
[Input File] : 0005.pdf [Result] ISBN:9784088707211, Title:食戟のソーマ(1)(ジャンプコミックス)
続いて、環境とソースになります。

続きを読む
posted by くまなべ at 21:24 | Comment(0) | TrackBack(0) | Python