HTML解析 BeautifulSoup その2
タグがそのまま出るのはアレなんで、修正しました。
文字化けも直しました。
from BeautifulSoup import BeautifulSoup import urllib import re def main(): html = urllib.urlopen('http://d.hatena.ne.jp/kuma8/') BS = BeautifulSoup(html) # エンコーディングの取得 print BS.originalEncoding # Aタグ取得 for tagName in BS.findAll('a'): print tagName.string, tagName['href'] if __name__ == "__main__": main()