macOS native Symposium #5 にて、表題の件で少しばかり登壇させて頂きました。
macos-native.connpass.com
この記事には、発表内容のメモと補足が書いてあります。
なぜこの発表をしようと思ったのか?
PDFKitを使うアプリを作っている最中に(なお当該アプリは本業が忙しくて開発凍結中😇)、PDFのファイル構造の解説を交えながら喋ったらみんなの知識のタネになるかなぁ、と考えたことから思い立ちました。当初はPDFの全体的な話をしようと思っていましたが、それでは内容が薄くなってしまうと感じ、文字の話に絞ることにしました(開発が止まっているPDFKit利用アプリは、文字列処理とは全く関係が無いんですけどね😅)。決して、準備にかける時間が足らなかったから、ではありません。
テスト用のPDFファイルで打ち込んでいた文字
- 1行目
タイトルあいうえお
- 2行目
パスワード👪👩👩👧❄️ The Quick Brown Fox Jumps Over the Lazy Dog.
この2行目の文字を拙作 CharViewer で見てみると、次のようになります。
作成時(元々)のテキスト
PDFから抽出したテキスト
いろいろ違いが見えて面白いですねー。
この発表内容からすぐに応用できる話
会場からの質問で「Macの プレビュー.app で文字を選択してコピーするときも同じ問題が起きるのですか?」というものがありましたが、これはとても良い質問で、経験上は全く同じ問題が起きます。おそらく プレビュー.app の中身も PDFKit なのでしょう。AppleScriptやAutomator等でテキスト抽出するときも同じであるはずです。
今日の発表内容を知っていると、PDFからテキストを取り出した時の問題点がどこにあるのか?を分かるようになります。これは開発時だけでなく日常生活でもとても有用です。
更に学ぶために
本を紹介しておきたいと思います。

- 作者: John Whitington,村上雅章
- 出版社/メーカー: オライリージャパン
- 発売日: 2012/05/25
- メディア: 単行本(ソフトカバー)
- クリック: 166回
- この商品を含むブログ (9件) を見る

- 作者: アンテナハウス株式会社
- 出版社/メーカー: アンテナハウスCAS電子出版
- 発売日: 2017/10/17
- メディア: オンデマンド (ペーパーバック)
- この商品を含むブログを見る
さいごに
セッティングしてくれた、運営チームの皆さんに、本当に感謝です🙇♀️🙇♂️🙇♀️🙇♂️🙇♀️