2010年03月25日

Html Agility Packで、エンティティ文字の解決

   このエントリーをはてなブックマークに追加 Clip to Evernote
C#で利用できるHtml Agility Pack というオープンソースの HTMLパーサーが、CodePlexがら入手できます。
HTMLをDOMに展開するので、XMLのDOMを扱ったことがあれば、それほど苦労することなく利用できます。

ただ、TextノードのTextプロパティを参照しても、> などのエンティティ文字がそのままなのには 困りました。
HtmlEntity というユーティリティクラスの DeEntitize メソッドを使います。


第1引数は何を入れたらよいのか良くわかりません。nullを入れておけばよさげです。
  

Posted by gushwell at 23:18Comments(0)TrackBack(0)

2010年02月24日

Clipboard.GetData(DataFormats.Html)で文字化け

   このエントリーをはてなブックマークに追加 Clip to Evernote
クリップボードからHTMLを取得しようと、以下のようなコードを書いたら、 日本語部分が文字化けしてしまいました。


文字化けを防ぐには、次のように、MemoryStream経由して Encodingの指定をしてHTML を取得する必要があります。


でも、


とか


だとダメです。MemoryStreamに変換できません。
これってバグですか?   
Posted by gushwell at 23:28Comments(0)TrackBack(0)