golden-luckyの日記

ツイッターより長くなるやつ

2019-12-03から1日間の記事一覧

PDFから「使える」テキストを取り出す(第3回)

昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q…