HTML解析 BeautifulSoup
だいぶ昔作ったAタグだけ取り出すプログラム(Java)が
でてきたので、BeautifulSoupで作ってみた。
すごい簡単にできた。
コマンドライン上で文字化けするのが気になりますがorz
from BeautifulSoup import BeautifulSoup import urllib import re def main(): html = urllib.urlopen('http://d.hatena.ne.jp/kuma8/') BS = BeautifulSoup(html) # エンコーディングの取得 print BS.originalEncoding # Aタグ取得 for tagName in BS.findAll('a'): print tagName if __name__ == "__main__": main()