[Python] ubuntuにlxmlをインストール
移転しました。
$ wget http://debian.cn99.com/ubuntu/pool/main/g/glibc/libc6_2.7-10ubuntu3_i386.deb $ sudo dpkg -i libc6_2.7-10ubuntu3_i386.deb $ wget http://security.ubuntu.com/ubuntu/pool/main/libx/libxslt/libxslt1.1_1.1.22-1ubuntu1.2_i386.deb $ sudo dpkg -i libxslt1.1_1.1.22-1ubuntu1.2_i386.deb $ wget http://komo.vlsm.org/ubuntu/pool/main/l/lxml/python-lxml_1.3.6-1_i386.deb $ sudo dpkg -i python-lxml_1.3.6-1_i386.deb python Python 2.5.1 (r251:54863, Mar 7 2008, 04:10:12) [GCC 4.1.3 20070929 (prerelease) (Ubuntu 4.1.2-16ubuntu2)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> import lxml >>> ★何もエラーが発生しなければOK
UTF8 BOM をとる。
lxmlでUTF8のHTMLファイルを読込む時に、BOM(EF BB BF)がついていると、日本語が文字化けした
そのファイルは以下コマンドで削除してやればいい。
perl -0 -i.bak -pne 's/^\xEF\xBB\xBF//' hoge.xml