2010年03月25日
Html Agility Packで、エンティティ文字の解決
C#で利用できるHtml Agility Pack というオープンソースの HTMLパーサーが、CodePlexがら入手できます。
HTMLをDOMに展開するので、XMLのDOMを扱ったことがあれば、それほど苦労することなく利用できます。
ただ、TextノードのTextプロパティを参照しても、> などのエンティティ文字がそのままなのには 困りました。
HtmlEntity というユーティリティクラスの DeEntitize メソッドを使います。
第1引数は何を入れたらよいのか良くわかりません。nullを入れておけばよさげです。
HTMLをDOMに展開するので、XMLのDOMを扱ったことがあれば、それほど苦労することなく利用できます。
ただ、TextノードのTextプロパティを参照しても、> などのエンティティ文字がそのままなのには 困りました。
HtmlEntity というユーティリティクラスの DeEntitize メソッドを使います。
第1引数は何を入れたらよいのか良くわかりません。nullを入れておけばよさげです。
2010年02月24日
Clipboard.GetData(DataFormats.Html)で文字化け
クリップボードからHTMLを取得しようと、以下のようなコードを書いたら、
日本語部分が文字化けしてしまいました。
文字化けを防ぐには、次のように、MemoryStream経由して Encodingの指定をしてHTML を取得する必要があります。
でも、
とか
だとダメです。MemoryStreamに変換できません。
これってバグですか?
文字化けを防ぐには、次のように、MemoryStream経由して Encodingの指定をしてHTML を取得する必要があります。
でも、
とか
だとダメです。MemoryStreamに変換できません。
これってバグですか?