HTMLの分析を行う際、タグを巡回する必要がありますがそんなとき、lxmlを使うと便利です。
lxmlでは、タグの入れ子関係が壊れたHTMLの修復も自動で行ってくれる機能がありますのでユーザは細かいことを気にする必要はありません。この修復機能のおかげで、入れ子の修復(閉じ括弧がないタグは閉じ括弧を付与)を行ってくれるため、HTMLをツリーとして、つまりDOMツリーとして捉えることができるようになるのです。
DOMツリーだから何やねん!という方は読み飛ばしてもらっていいのですが、ツリーであるおかげで親ノード(親タグ)をたぐったり、兄弟ノード(兄弟タグ)をたぐったりが簡単にできるようになるのですね。lxmlってすばらしい。
木を巡回する手法はいろいろとありますが、今日は深さ優先で巡回する手法をみてみましょう。
lxmlを使えば、タグの除去も超簡単です!
tostring()もしくはXPathを使ってできるのですね〜。
lxmlは文字コードを厳格に定義しており、入力時は必ず「unicode」化しておく必要があります。
これだけでも注意しておかなければならない点ですが、lxmlには、出力用のtostring()というメソッドを持っており、ここでも文字コードの注意が必要となってきます。
Djangoでは、save()を使ってレコードを作成したり更新したりすると思います。
オブジェクトが新規作成される場合はINSERT。そうでない場合はUPDATEとDjango側が自動的に切り分けてくれます。
これは、DBレイヤーでは、
ということをしてくれています。
でも、毎回必ずINSERTしたい場合はどうでしょう?
pythonでHTTP通信する場合、urllib, urllib2あたりを使うことが多いと思います。
手軽で簡単ではあるのですが、どちらもレスポンスコードを取得することができません。
「レスポンスコードをどうしても取得したい!」という場合は、httplibを使いましょう。
Pythonで型を調べる方法といえばtypeですが、オブジェクトが★何なのか?★を調べる方法はたくさんあります。メソッドなのか?文字列なのか?クラス○●なのか?など。
型を調べる方法をマスターすることで汎用性の高い関数を実装することが可能となりますので、一度は理解しておきましょう。
VirtualBoxを使って固定IPを設定してみましょう。
VirtualBox独自のDHCPサーバーを持っており、192.168.56.xxxのサブネットワークを形成しています。固定IP設定するには、まずこのDHCPサーバー機能を停止し、独自の固定IPを付与する必要があります。さらに、ホスト側のサブネットワークと通信できるように、例えばWinXPならブリッジネットワークにVirtualBoxのネットワークアダプタを追加して同じサブネットワーク内で通信できるようにする必要があります。
以下、ホストOSがWinXP、ゲストOSがDebian5の場合の設定方法です。
WYSIWYGエディタは、近年のWebのシステム化において非常に重要なウェイトを占めるようになってきています。
Djangoでも、いくつかWYSIWYGエディタをエンベットできるアプリが登場してきています。
今日は、これらアプリについて簡単な紹介をしたいと思います。