[Python] ubuntuにlxmlをインストール

移転しました。

$ wget http://debian.cn99.com/ubuntu/pool/main/g/glibc/libc6_2.7-10ubuntu3_i386.deb
$ sudo dpkg -i libc6_2.7-10ubuntu3_i386.deb
$ wget http://security.ubuntu.com/ubuntu/pool/main/libx/libxslt/libxslt1.1_1.1.22-1ubuntu1.2_i386.deb
$ sudo dpkg -i libxslt1.1_1.1.22-1ubuntu1.2_i386.deb
$ wget http://komo.vlsm.org/ubuntu/pool/main/l/lxml/python-lxml_1.3.6-1_i386.deb
$ sudo dpkg -i python-lxml_1.3.6-1_i386.deb
python
Python 2.5.1 (r251:54863, Mar  7 2008, 04:10:12) 
[GCC 4.1.3 20070929 (prerelease) (Ubuntu 4.1.2-16ubuntu2)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import lxml
>>>  ★何もエラーが発生しなければOK

UTF8 BOM をとる。

lxmlでUTF8のHTMLファイルを読込む時に、BOM(EF BB BF)がついていると、日本語が文字化けした
そのファイルは以下コマンドで削除してやればいい。

perl -0 -i.bak -pne 's/^\xEF\xBB\xBF//' hoge.xml