読者です 読者をやめる 読者になる 読者になる

HTML解析 BeautifulSoup

だいぶ昔作ったAタグだけ取り出すプログラム(Java)が
でてきたので、BeautifulSoupで作ってみた。

すごい簡単にできた。
コマンドライン上で文字化けするのが気になりますがorz

from BeautifulSoup import BeautifulSoup
import urllib
import re

def main():
    html = urllib.urlopen('http://d.hatena.ne.jp/kuma8/')
    BS = BeautifulSoup(html)
    # エンコーディングの取得
    print BS.originalEncoding
    # Aタグ取得
    for tagName in BS.findAll('a'):
        print tagName

if __name__ == "__main__":
    main()