golden-luckyの日記

ツイッターより長くなるやつ

XMLをつぶす機械を作る機械を作る

昨日は、ドキュメントの構造をプログラムのように実行できるというアイデアの話をしました。 具体的には、「ドキュメントの構造をS式で表現し(SXML)、そのタグをLispの関数と見立て、それを要素に関数適用する」というアプローチです。 たとえば、XMLで表…

XMLをLisp評価器で実行する

昨日は、ドキュメントとは木であり、その木はXML、さらにいうとXMLアプリケーションとして形作られる、という話をしました。 一般にドキュメントは、生のままの構造として読み手に与えられるものではありません。 ドキュメントの構造が何らかのXMLアプリケー…

なんでドキュメントといったらXMLが出てくるのか

昨日は、ドキュメントにおける構造というのはセマンティックな構造である、という話をしました。 今日は、そのセマンティックな構造をどう扱うか、という話です。 ドキュメントの構造は一般にXMLを使って表されている 結論から言うと、ドキュメントの構造は…

ドキュメント技術とプログラミング言語の相似について

よく知られているように、ドキュメントには「構造」があります。 WebページではHTMLとCSSにより構造とスタイルを分離するべきとか、Wordでは書式設定をスタイルとして定義して使うことで構造とスタイルを分離するべきとか、ドキュメントの「べき」論で必ず言…

一人でアドベントカレンダーを書いている

去年に引き続き会社の近況報告をしようと思ってpyspaアドベントカレンダーにエントリしたけれど、今年は会社の話はやめて、メタアドベントカレンダーを書きます。 今年は一人でアドベントカレンダーをやることになり、とりあえず6日間、必至で書き続けました…

PDFから「使える」テキストを取り出す(第6回)

今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。 大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログ…

PDFから「使える」テキストを取り出す(第5回)

昨日の記事では、PDFのコンテンツストリームから文字を読めたことにして、その文字をテキストとして再構築する話をしました。 今日は昨日までの話の締めくくりとして、「PDFごとにカスタムなテキスト取り出し」の話をするつもりだったのですが、その前に文字…

PDFから「使える」テキストを取り出す(第4回)

昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。 いや本当のことを言うと、まだ全然説明できてないんです。 でも、文字の話ばかりしていても先に進めないので、今日は(可能な場合には)PDFから文字…

PDFから「使える」テキストを取り出す(第3回)

昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q…

PDFから「使える」テキストを取り出す(第2回)

昨日は、PDFの本来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。 ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。 まず昨日…

PDFから「使える」テキストを取り出す(第1回)

PDFからテキストを取り出すのは、意外と大変です。 それにはいくつかの理由があるのですが、もっとも根本的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵(「グリフ」)をコンピューターで扱えるような「文字」にする方法です。 …

プログラミングとは ― 最強のカレーレシピ ―

「うちの学校でもついにプログラミングの授業が始まったよ」 「それは興味深いね。どんなふうに教えてるの? やっぱりScratchとか?」 「Scratch? ああ、プログラミング言語のことか。プログラミング言語は使わなくていいんだよ」 「え?」 「小学校で学ぶ…

Haskell 解説本 小史

日本語圏におけるHaskellの解説本には、これまで4回の波がありました。 それを思い出しながら、最後に『プログラミングHaskell 第2版』の紹介をします。 第1波 第2波 第3波 第4波 『プログラミングHaskell』が改訂されます 第2版ではプログラミングにおける…

『n月刊ラムダノート Vol.1, No.2』を読むべき1つめの理由

『n月刊ラムダノート』の話をいろいろしたいのだけど、どこから話せばいいのかわからないので、Lispの話をします。 昔、といってもほんの10年ちょっと前のことですが、日本でLispが流行った時期がありました。 「プログラミング言語のパワーには絶対的な差が…

技術書の技術を軸に技術書について想いを馳せた話

ここでいう「技術書」というのは、「IT系の技術周辺を扱った本」のこと。この意味における「技術書」の界隈では、近年、「技術書典」という同人誌即売イベントが年二回のペースで開催されている。これは文字通りの祭「典」で、わずか6時間という短い開場時間…

QUICとHTTP/3時代のインターネット解説書はどうあるべきだろう

OSI参照モデルとTCP/IPモデル なぜいまでもOSI参照モデルによる説明が多いか QUICは、TCP/IPモデルのトランスポートとはいえるが、OSI参照モデルのレイヤ4とはいいにくい HTTP/QUICモデル QUICをどう解説するか OSI参照モデルとTCP/IPモデル かつてぼくたち…

TeXのフォントまわりについては、以下の3点が意識して語られるといいなと思う。 TeXのフォント環境の理解は難しい。なぜなら、フォントに関する深い知見はもちろん、今となっては古臭いTeXのディレクトリに関する知識も必要だから 今となってはどうしようも…

%.texという名前のファイルをLaTeXで処理する方法

ふつう、コマンドの引数にファイル名を指定すれば、そのコマンドの実行プロセスに標準入力経由でファイルの中身が渡されると思いますよね。 ところがplatexとかpdftexなどのコマンドは、引数として指定されたものを、すべてTeXのトークンであるかのように読…

2018年でもEPSファイルをTeXで使う

はじめに みなさん、EPSファイル、使ってますか? 近年、(La)TeXの文書作成においては、「EPSファイルを使うな」というマナーが確立しています。 マナーにはデフォルトで抗っていくということで、この記事では、現代的なLaTeX環境におけるEPSファイルの可能…

出版社を作って3年が経ちました

ラムダノートという出版社を作って3年が経ちました。 www.lambdanote.com この12月から、会社としては第4期に突入です。 3年もすれば中学生は高校生になるわけで、それなりに感慨があります。 そこで、pyspaアドベントカレンダーという場を借りて、ちょっと…

ホワイトチョコを挟んだやつ三銃士

ホワイトチョコを挟んだやつ三銃士を連れて来たよ。 ホワイトチョコを挟んだやつ三銃士? 北の専門家、白い恋人。うっす、よろしく。 ヨックモックの専門家、ドゥーブルショコラブラン。がんばります、よろしく。 ルマンド、ルーベラなどブルボンの専門家、…

「そういえば前職でこの話を業務ブログに書いてたな」と思った話があって、検索したところ、ひっかからない。トップページからリンクをたどっても見当たらない。いやな予感がしてもうちょっと調べたら、過去の記事がぜんぶ、しれっとなかったことになってい…

マッハ新書、β版で電子版を先行発売して紙を売り出すという、ここ10年来の英語圏における一部技術書の動向が、日本語圏では技術書界に先立って新書という形で、トップダウンかつボトムアップに再発明されたものという感じがする(ポジティブな感想です)。 …

自分で買った本を読んでいて謎の日本語や組版の不備や構成の甘さに耐えがたくなったり、発売前に長大な正誤表が出るといった話を聞いてしまったりすると、自分の仕事でどこまで手を抜いても売上や信用を落とさずに乗り切れるか、という思考実験がついつい脳…

立ち上げのころからよく知っている電子書籍の出版社直販サイトが昨日で販売を中止し、ハードDRMがかかっていないPDFが主な商品だったので購入済みの本が読めなくなるということは原則としてないんだけど、しばらくしたら購入済みの本のダウンロードもできな…

理工書のタイトルに「入門」が多いのは出版社の編集者が売れるからという理由で入門でないものにも入門とつけたがるからだ、という頻出の話題をまた見かけたので、当事者を対象としてツイッターでアンケートしてみた。 理工書のタイトルを考える立場の人(編…

マークアップ言語における記法とは何かって、確かに定義が必要だった。 記法という言葉を未定義で使っているように思えたんですが。— Tokushige Kobayashi (@TokKoba) 2017年12月25日 ここで取り沙汰されている記事を書いてるときは、「構造およびレイアウト…

note.mu 言いたいことは、すごくよくわかる。でも、残念ながら、「読まれるテキストとは、読み飛ばせるテキストである」というのが圧倒的に正しい。だから、「読まれるテキスト」を考えるなら、元記事のように、「読み飛ばせるテキストにするにはどうするか…

blog.jnito.com 同書の制作の舞台裏がとてもよく伝わってくる、すばらしい記事だった。 すごくよくまとまっているので、未読だけど書籍本体もしっかり書かれているのだろうなと感じた。 で、制作の舞台裏があまりにも伝わりすぎたので、おれにもひとこと言わ…

古き良き雑誌とか新聞の、あのいろんな情報が平面全体をつかって構成されているレイアウトって、読み手に情報を「捨てさせる」うえで効果的なのかもしれないなあ。もちろん作ってる側は「見てほしい」部分を生かすように工夫してるには違いないんだけど、そ…