職業プログラマの休日出勤

職業プログラマによる日曜自宅プログラミングや思考実験の成果たち。リアル休日出勤が発生すると更新が滞りがちになる。記事の内容は個人の意見であり、所属している(いた)組織の意見ではない。

PDF Cheatsheet を作った

PDF Cheatsheet - www.tmotooka.com

自宅でも仕事でも、PDFは非常に頻繁に取り扱う。PDFファイルを画面に表示させたり印刷させたり、Word等のドキュメント作成アプリケーションから出力させることもある。だが、これだけではない。そのPDFがどのように作られているのか内容を確認しなければならないことがある。
PDFの中身を読むにあたっては、PDFのファイルフォーマットをある程度抑えておく必要がある。基本的な事項は、このブログでも散々紹介している「PDF構造解説」という名著にて学ぶことができる。

PDF構造解説

PDF構造解説

しかし残念ながら、これは全てではない。この本に書かれていないことも山ほどある。そのような内容を知りたくなったら、Adobe社の文書 にあたるのが良いだろう。
技術的キーワードであれば、上記のAdobe社のサイトからダウンロードできる PDFの仕様のPDF のファイル内を検索することで解説を読むことができる(ただし英語)。ところが、PDFのコンテントストリームの中に書かれている描画コマンドの数々は大抵、アルファベット1〜2文字で構成されていて検索するのは非常に難しい。
ならば、描画コマンドだけ、どのような意味のものなのかを簡潔にまとめたチートシートカンニングペーパー)があれば生活が楽になると思い、冒頭に掲げたチートシートを作った。

PDFを取り扱っている皆さんに、ぜひ活用して頂きたい。

パイプを通るPDF(実験中) 〜 #シェル芸 の新たなる境地へ


先日開催された「第25回 #シェル芸 勉強会」のLT(大阪編)でしゃべった内容を、ここで紹介します。

#大げさなタイトルですが、世の中は広いものです。先駆者はどこかにきっと居られることでしょう。

目標

標準入力や標準出力を受け渡しするための仕組み パイプ はテキストデータだけでなく、バイナリデータも流すことができます。
一般的なシェル芸においては当然ながら大半の用例が、テキストをパイプで流すというものですが、バイナリデータを流すときのノウハウも蓄えていきたいと思います。

空っぽのPDFを作る

これはImageMagickconvert コマンドで実現可能です。

$ convert xc:none -page A4 a.pdf

ImageMagickconvert は、画像ファイルを変換するコマンドです。基本的には、入力画像を与えて、変換処理の内容を与えて、出力先を指定して実行します。上記の例で言えば xc:none が入力で、-page A4 が変換処理の内容(出力形態)、a.pdf が出力先に相当します。
この xc:none は、空っぽの画像を表すようです。テキストデータに例えると /dev/null とも言えるかもしれません。

xc:none については、ここで知りました。
unix.stackexchange.com

空っぽのPDFを標準出力に吐く

convertの結果を標準出力に吐く方法を調べようとしましたが、ImageMagickは通常、出力先のファイル名の拡張子を見て出力フォーマットを決定しています。標準出力にそのまま吐こうとしてもPDFであることを強制できないのではないか?という疑問が湧きます。
この点についてググると、次のようなものがヒットしました。
forcing output file format on stdout - ImageMagick
出力先に jpeg:- と指定するとJPEGで標準出力に出すことができるそうです。ならば pdf:- によってPDFが標準出力に吐かれるはずだ!と推測して試したところ、無事に吐くことができました。

$ convert xc:none -page A4 pdf:- > a.pdf

ここではリダイレクトを使ってファイルを出力していますが、これでファイルが吐かれていれば標準出力からデータが出ていることの確認になります。PDFのファイルフォーマットに慣れ親しんだ方であれば、次のような検証も有効でしょう。

$ convert xc:none -page A4 pdf:- | head

標準入力から受け取ったPDFでゴニョゴニョ

次は、標準入力から受け取ったPDFの加工です。
よく使われるのは gsコマンドこと GhostScript ツールです。

入力元のオプションとして -_ を与えると標準入力から受け取ってくれるという情報がありますが、まだ検証中です。
ここから先は実験中なので、また成果がまとまり次第報告したいと思います。正直なところ、現時点では上手く行ってません。
お楽しみに!

感想(追記@2016/10/30 15:53頃 JST

実験に使った環境

書籍紹介コーナー

この本を読めば、$ cat hoge.pdf とかしちゃっても戸惑うことは減るはずです。

PDF構造解説

PDF構造解説

こちらの記事でも紹介してます => さぁ、PDF手書きの世界へ。 - 職業プログラマの休日出勤

第25回 #シェル芸 勉強会に参加してきました

タイトルの通りです。今回も大阪サテライトに参加しました。

本家
usptomo.doorkeeper.jp

大阪サテライト
atnd.org

Togetterまとめ
togetter.com
あ、一番最初に掲載されている。

問題 【問題のみ】第25回もう4年もやってんのかシェル芸勉強会 – 上田ブログ
問題+解答例 【問題と解答】第25回もう4年もやってんのかシェル芸勉強会 – 上田ブログ

この日の自分の tweet T.Motooka(@t_motooka)/2016年10月29日 - Twilog
シェル芸とは無関係の発言も含んでいるとは言え、171tweetsもしており、不健全な感じがします。(前回は149tweets)

続きを読む

関西モバイルアプリ研究会 #関モバ 第19回 に参加

関西モバイルアプリ研究会(通称 関モバ)の第19回に参加してきました。

kanmoba.connpass.com

会場

今回の会場は、このブログなどでもお世話になっている 株式会社はてな さんの京都オフィス!
本当によくお世話になってます。
はてな記法 にも、結構長いことお世話になっています。このブログ「職業プログラマの休日出勤」も はてな記法 で書いています。

自分で発表した内容

某所において先日、サーバ復旧したと思ったらすぐに再び落ちたという事象を目の当たりにしたことから、この話をしようと思いました。
そのサーバはモバイルアプリのバックエンドではないですし、「再び落ちた」原因もアクセス集中ではなかったのですが、やはりモバイルアプリの世界では多いのはこのスライドの中で紹介しているパターンだろうなーと思っています。

終盤の まとめ のページに掲載している言葉「サーバ管理者に優しい言葉をかけ続けると綺麗なAPI設計が返ってくる」は完全にネタですが、そこまで外していないような気もします。
あと、「札束」が強力な武器であることは誰もが理解しているはずなのですが、企業の会議室の中においては無かったことにされるケースもよく耳にしますので、敢えて言及しました。

対策の例として Exponential Backoff を紹介しましたが、このような考え方が素晴らしいモバイルアプリ開発につながっていったら、非常に嬉しいです。

さいごに

はてなの皆さん、運営の皆さん、参加者の皆さんに感謝!

v6喋る串

「これからはIPv6の時代だ!」そんなふうに考えていた時期が筆者にもありました。確か2005年頃の話だったかと思います。

それから10数年の時が流れ、世の中は未だにIPv4だらけです。人生の進捗もダメなままです。
そんな折、某所でIPv6の需要が急激に高まってきたので、久し振りにIPv6と戯れてみました。

今回のお題は「v6喋る串」、平たく言えば「IPv4だけ喋るクライアントからの HTTP Request を、IPv6な HTTP Server へ送るプロクシ」です。こんなものの需要はほとんど無いでしょうけれども、手元の環境はIPv4の回線しか無いけどIPv6での接続確認も取りたい!という検証用には非常に有用でしょう。

IPv6 アドレスを容易に獲得できるインフラ

AWSでのIPv6サポートは(本記事執筆時点では)限定的なものであり、EC2のサーバに直接IPv6アドレスを割り付けることはできないようです。今回の検証にはAWSを使うことはできません。
AWSに匹敵するほど我々に身近なサーバ屋さんの中でIPv6対応を謳っているのは、さくらインターネットさんの「さくらのVPS」と「さくらのクラウド」です。今回はこれらのお世話になりつつ実験を進めたいと思います。

この記事では さくらのVPSさくらのクラウド の両方を使っていますが、おそらく片方だけを2環境用意するという方法でも上手く行くでしょう。
「どちらを使ったら良いの?」という方には、ただ単に実験するだけなら さくらのクラウド の方がオススメです。長期的に使い続けて、かつ、負荷の程度が見えている状況なら さくらのVPS の方が良いでしょう。クラウドの方はクレカ必須であるように見えるので、持っていないという方はご注意を。さくらのクラウド の場合は後述の「ルーター+スイッチ」が最低でも3500円程度/月・1ネットワーク、VPSの場合は初期費用が1600円程度/月・1台 かかるので、いずれにせよ実験するために5000円くらい使うことになります。

筆者が用意した環境

IPv4 / IPv6 両方喋る HTTP Server : Debian

Apacheのセットアップ

たぶん sudo apt-get install apache2 とかやれば、Apacheは入るでしょう。
とりあえず、インストールした後にアクセスして、テスト用ページが表示されることと、アクセスログが吐かれることを確認しましょう。アクセスログは、後でIPv6のアクセスを受け付けるようになったときに、接続確認にも使います。今はIPv4でのアクセスログが吐かれていることでしょう。

eth0 で IPv6 を有効に

さくらのVPS のコンパネにアクセスすると、

を教えてくれるので、その情報を /etc/network/interfaces に書き込み、サーバ再起動します(恐らく、ネットワーク関係のサービスだけ再起動しても有効なはずだけど、調べるのが面倒臭くてサーバ再起動してましたw)。
詳しい書き方や動作検証の方法などは、こんな解説もあるので参考にしましょう。

さくらVPS で IPv6 アドレスを Debian 7 wheezy に設定する – ymyzk’s blog

ip6tables

基本的な考え方は通常のIPv4での iptables と同じです。ですが、IPv4 で効いていた設定が効かなかったり、指定したらエラーを吐いて設定を食ってくれないということが非常に多くありました。今回の検証の中で、筆者が最も時間を費やしてしまったのはこの部分です。
最終的にはこんな設定を /etc/iptables/rules.v6 に書き込みましたが、まだザルだらけなので改善の余地は大いにあります。

*filter
:INPUT DROP [0:0]
:FORWARD DROP [0:0]
:OUTPUT ACCEPT [0:0]
:LOG_PINGDEATH - [0:0]
-A INPUT -i lo -j ACCEPT
-A INPUT -m state --state RELATED,ESTABLISHED -j ACCEPT
-A INPUT -p ipv6-icmp -j ACCEPT
-A INPUT -p tcp --dport 80 -j ACCEPT
-A INPUT -p tcp --dport 443 -j ACCEPT
-A INPUT -j DROP
-A FORWARD -m limit --limit 1/sec -j LOG --log-prefix "[IPTABLES6 FORWARD] : "
-A FORWARD -j DROP
-A OUTPUT -p tcp -m multiport --sports 135,137,138,139,445 -j DROP
-A OUTPUT -p udp -m multiport --sports 135,137,138,139,445 -j DROP
COMMIT

どうも -m のオプションが機能していないような感覚がありますが、裏づけまでは取れていません。

こうやって書いた設定を有効にするにはroot権限で netfilter-persistent reload を実行していました(Debianです)。実行後、反映されるまでには数秒〜10秒程度の遅延がありました。

DNS設定

構築したHTTPサーバはIPv4アドレスとIPv6アドレスの両方がありますので、両方ともドメインのAレコード、AAAAレコードとしてDNSサーバに設定しましょう。


これで、IPv4 / IPv6 の両方で接続を受け付ける HTTP Server が完成したはずです。
以下の串の動作確認を効率的に行うべく、アクセスログを監視しておきましょう。tail -fなどで。

さて、さくらのクラウドのお世話になりながら、串をセットアップしていきましょう。冒頭に記載しました通り、Ubuntu 16.04 を使っています。

さくらのクラウドIPv6を使うためのテクニック

実は、さくらのクラウドで立てるサーバを単体で使っても、IPv6アドレスを獲得することはできません。
ルーター+スイッチ」を設置し、そこでIPv6を有効にし、その状態でサーバを新設してルーター+スイッチに接続させる必要があります。

このとき、サーバを共有セグメントで立ち上げた後でルーター+スイッチに接続しようとすると、IP(v4, v6)アドレスがDHCP的な仕組みではなくて静的にOS内に設定されていることから、後でそれを書き換えるための手間が増えます。サーバ起動よりも先にルーター+スイッチを用意しておくことで、少なくともIPv4アドレスについては何もしなくて良くなります。

IPv6を有効にするには、/etc/network/interfaces に以下の内容を追記し、サーバ再起動します(これも恐らく、ネットワーク関連のサービスの再起動だけでも行けるはず)。

iface eth0 inet6 static
address 2401:2500:***(ヒミツ)***
netmask 64
gateway fe80::1

ここで address の値は、ルーター+スイッチの詳細情報「IPv6割当可能範囲」を参考にして、他のサーバと衝突しないように自分で勝手に付けます。

Squid の設定

root権限で apt-get install squid みたいなコマンドを打てば、squid をインストールすることができます。
設定ファイルは /etc/squid/squid.conf に置いてあるので、バックアップを取った上で編集し、

acl theowner src ${自分のIPv4アドレス}/32
http_access allow theowner

という設定を先頭の方に差し込みましょう。設定ファイルの下の方に http_access deny all という一節がありますが、恐らくここよりも上に書いていれば良いのでしょう(下に書くことを検証してはいません)。best-practiceとしては、別のファイルに設定を書いておき、それをincludeして使う形が望ましいですが、ちょっと検証するだけのサーバならどうでもいいでしょう。

ip6tables

前述の、Debianで設定した時と考え方は同じです。
(ですが、筆者はここで 座流・咳百合亭 という大技を繰り出しましたとさ…orz)
長期的に設置したり、大事な情報を置いたりすることになるサーバなら、きちんと設定しましょう。v4に関しては さくらのクラウド のパケットフィルタ機能で制御できるようです。

Outgoing の IPv4 を殺す

恐らく、ここまでの手順を踏むだけで HTTP Proxy サーバとしては十分に機能するはずです。
お手元のブラウザまたはOSのプロクシ設定を、ここで建てた串に向けます。
(※squidのデフォルトポートは 3128 です)
この状態で、冒頭で建てたHTTPサーバへアクセスすると、きちんと IPv6 でのアクセスが記録されます。良かったですね!

実は、squid がプロクシとして動作するとき、IPv6IPv4の両方で HTTP Server にアクセスできるのならば、IPv6 を優先して使うという挙動を取ります。
[squid-users] Outgoing IPv6 address with no IPv4 address accessSquidメーリングリストに、2015年に投稿されている情報)
IPv6で HTTP Server に接続することが目的なら、この挙動を信じて、これ以上作業をする必要はありません。
もしも「IPv6でなければエラーにしたい」のであれば、iptablesをいじって、串からの outgoing の HTTP(S) のパケットを破棄すれば良いでしょう。iptablesの設定で「DROP」だとやたら待たされるでしょうから「REJECT」が良いでしょう。

参考図書

マスタリングTCP/IP IPv6編 第2版

マスタリングTCP/IP IPv6編 第2版

IPv6 エッセンシャルズ 第2版

IPv6 エッセンシャルズ 第2版

IPv6教科書 (インプレス標準教科書シリーズ)

IPv6教科書 (インプレス標準教科書シリーズ)

IPv6の本って、ちょっと古いのが多い気がしますが、理論を学ぶ上ではそれほど問題は無いでしょう。

さいごに

この記事の内容を応用すれば「IPv4しか喋れない HTTP Server に、IPv6しか喋れないクライアントからのリクエストを連携してあげるリバースプロクシ」も作ることができるでしょう。お試しあれ。
これから来るかもしれない IPv6 の時代、一足お先に慣れておき、数年後に楽をしようではありませんか。