golden-luckyの日記

ツイッターより長くなるやつ

2019-12-01から1日間の記事一覧

PDFから「使える」テキストを取り出す(第1回)

PDFからテキストを取り出すのは、意外と大変です。 それにはいくつかの理由があるのですが、もっとも根本的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵(「グリフ」)をコンピューターで扱えるような「文字」にする方法です。 …