2004年11月07日

HTMLをXML変換このエントリーをはてなブックマークに追加

ある程度定型フォーマットのHTMLをXMLに変換し、
別のプログラムからそれを読み込んでいろいろとやりたいと思っているのだが、
なかなか思うようにはいかない。
HTMLタグをXMLに置換するなどして、自力でやるしかないんだろうか。
tidyというものを使えば、思い通りのものに近づけるような気がするのだがまだうまくいっていない。。。悩ましい日々は続く

この記事へのトラックバックURL

http://app.blog.livedoor.jp/nyamaji/tb.cgi/8979109
この記事へのコメント
はじめまして。jusakinと申します。
私も、HTML→XMLの変換について非常に悩んでいました。
検索していてたまたま、発見しました。

HTML→XHTMLへの変換は可能なんですが、それではXMLとしての機能が全く意味を持たなくなってしまいます・・・。なんらかの方法でXMLとしての意味を持たして変換させたいのですが、なかなかうまくいかないのです。
同じような悩みでしたら、是非情報を共有できたらいいなと思っております。
Posted by jusakin at 2004年11月22日 03:27
どんな言語使ってやってるんでしょうか?
javaだとhtmlパーサーとかあるみたいですが、
こちらではPHPでやってたのですが、
今現在perlでチャレンジ中です。
で、いくつか方法考え出しましたー。
今週末には形になります。
Posted by やまじ at 2004年11月24日 02:58
すいません〜。大変返事遅れましたぁ。
私もPerlで挑戦中です。
ただ、現在のところHTMLをすべてXMLに変換するのではなく
まず、RSSに変換するところから始めています。
よってリンクとそのリンクに対するタイトルの部分のみの抽出となっています。
Posted by jusakin at 2004年12月04日 21:34
僕もperlで、htmlをRSSに変換できるようになりました。
なんか同じ感じですね(^^;
同じ方向性のものを作ってたりして・・・
参考にした本は<a href="http://www.amazon.co.jp/exec/obidos/ASIN/4873111870/250-1411412-6952245" target=_blank>Spidering hacks</a>です。
Posted by やまじ at 2004年12月04日 22:16
ぉぉ、なんかいい感じの本ですね。
僕は、
http://hail2u.net/rss/#rssgen
とRSS関連のサイトを見てなんとか変換可能になりました。
ただ、これではまだXML化する意図が見えないので、もう少し改良を加えて取得できる情報を増やさなければならない感じです。
Posted by jusakin at 2004年12月05日 00:16
追記ですが、紹介して頂いた本なんですが、
おもしろそうなんで買ってしまいました・・・。ちょと見てみます。
Posted by jusakin at 2004年12月05日 00:28
はいぜひ。
こちらもいろいろとチャレンジしてみます。

いろいろなサイトを作ってるかとお見受けしますが、
情報交換でもしましょう(^^
Posted by やまじ at 2004年12月05日 00:39
本が届きましたぁぁ。
この本おもしろいですね。
今、じっくり読んでおります。
Posted by jusa at 2004年12月15日 11:54