ソースコード中に0xC2A0(UTF-8のNO-BREAK SPACE)が混ざり実行できなくて困った話

あるソースコードをコピペして実行しようとしたところ、なんか動かない。(正確にはパッチファイルを適用しようとした)

目grep してみたところ、おかしいところはなさげである。

動かないファイルを色々調べてみると以下のようなことがわかった。

「半角スペースらしき空白」が半角スペースではない何かのため、実行できなくなっていた模様。

ということで、この「半角スペースらしき空白」を抽出してバイナリエディタで見てみた。

a b c

一応テキトウな文字で挟んでみる。

とした。

見てみると…。

61 C2 A0 62 20 63

61 62 63 はそれぞれ a b c で、 20 は 半角スペース であるというところまではOK。

残ったのは C2A0 。

「半角スペースらしき空白」は NO-BREAK SPACE という文字で htmlで使う   と同じもの。

表示する分には(レイアウトなどに気を付ける必要はあるものの)特に問題はないが、ソースコードの空白としては不適切。

本文の C2A0 を半角スペース 20 に置換してやる事でソースコードはソースコードとしてよみがえる。

ところで、冒頭で「あるソースコード」としたコードだけど、これの出所はEvernoteにストックしておいたものだった。

いったんノートに取り込んでしまうと、Evernote側の仕様でこうなっちゃうのかな？

こういう話もあり↓

Evernoteは半角スペースを複数入力すると、内部的には がちょこちょこ入れられて、enmlなんかにも0xC2 0xA0というバイト列が入るんだな。vimで開いても単なるスペースにしか見えないので気付かなかった
— かと (@orangain) July 29, 2013

ただ、必ずそうなるわけではなく、何かを経由したときだけ変換される？

もうちょい調べてみないといけないな〜。

vi 、 emacs 、他(sedとか？)でうまく変換できるようにしたい。

kk_Atakaの日記