luxa2サイトで、UTF-8のアポストロフィが文字化け
edubuntu 11.10 実機と ubuntu 12.04LST LiveDVD 仮想の firefox および Windows XP Home SP3 実機の Internet Explorer 8 で、 http://www.luxa2.com/product_faq.aspx?s=2 を眺めてみますと、アポストロフィが文字化けしている。
なにがいけないのでしょうか?
ちなみに上述のURLからwgetで得られるファイルにおいてodで16進数を確認してみると
0001220 65 20 28 69 4d 4f 4e 29 20 61 6e 64 20 64 6f 6e 0001240 3f ef bf bd 74 20 6e 65 65 64 20 4d 43 45 20 66 0001220 e sp ( i M O N ) sp a n d sp d o n 0001240 ? o ? = t sp n e e d sp M C E sp f
つまり文字列 "don't" の16進数は 64 6f 6e 3f ef bf bd 74 となっている。
ということで、wgetしたファイル上ではアポストロフィのシーケンス(UTF-8)は16進で 3f ef bf bd ということになっているようです。
ちなみに、 http://ja.wikipedia.org/wiki/UTF-8 よると、
4オクテット長シーケンス F0-F7・80-BF・80-BF・80-BF (U+10000 … U+1FFFFF) 3オクテット長シーケンス E0-EF・80-BF・80-BF (U+0800 … U+FFFF) 2オクテット長シーケンス C2-DF・80-BF (U+0080 … U+07FF) 1オクテット長シーケンス 00-7F (U+0000 … U+007F)
とのことなので、3f ef bf bdのところで ef bf bd だけに注目すると3オクテット長シーケンス E0-EF・80-BF・80-BF にマッチするようにも思えるのですが・・・
ef bf bdのまえになぜか3fつまりクェッションマークが出現しているので、Wikipediaの説明を斜め読みしただけでは合点がいかない状況になっています。
うう謎。詳しい方はコメントください。