ある程度定型フォーマットのHTMLをXMLに変換し、
別のプログラムからそれを読み込んでいろいろとやりたいと思っているのだが、
なかなか思うようにはいかない。
HTMLタグをXMLに置換するなどして、自力でやるしかないんだろうか。
tidyというものを使えば、思い通りのものに近づけるような気がするのだがまだうまくいっていない。。。悩ましい日々は続く
Posted by nyamaji at 02:56
│
Comments(8)
│
TrackBack(0)
│
はてブに追加
│
ネット
この記事へのトラックバックURL
http://app.blog.livedoor.jp/nyamaji/tb.cgi/8979109
はじめまして。jusakinと申します。
私も、HTML→XMLの変換について非常に悩んでいました。
検索していてたまたま、発見しました。
HTML→XHTMLへの変換は可能なんですが、それではXMLとしての機能が全く意味を持たなくなってしまいます・・・。なんらかの方法でXMLとしての意味を持たして変換させたいのですが、なかなかうまくいかないのです。
同じような悩みでしたら、是非情報を共有できたらいいなと思っております。
どんな言語使ってやってるんでしょうか?
javaだとhtmlパーサーとかあるみたいですが、
こちらではPHPでやってたのですが、
今現在perlでチャレンジ中です。
で、いくつか方法考え出しましたー。
今週末には形になります。
すいません〜。大変返事遅れましたぁ。
私もPerlで挑戦中です。
ただ、現在のところHTMLをすべてXMLに変換するのではなく
まず、RSSに変換するところから始めています。
よってリンクとそのリンクに対するタイトルの部分のみの抽出となっています。
僕もperlで、htmlをRSSに変換できるようになりました。
なんか同じ感じですね(^^;
同じ方向性のものを作ってたりして・・・
参考にした本は<a href="http://www.amazon.co.jp/exec/obidos/ASIN/4873111870/250-1411412-6952245" target=_blank>Spidering hacks</a>です。
ぉぉ、なんかいい感じの本ですね。
僕は、
http://hail2u.net/rss/#rssgen
とRSS関連のサイトを見てなんとか変換可能になりました。
ただ、これではまだXML化する意図が見えないので、もう少し改良を加えて取得できる情報を増やさなければならない感じです。
追記ですが、紹介して頂いた本なんですが、
おもしろそうなんで買ってしまいました・・・。ちょと見てみます。
はいぜひ。
こちらもいろいろとチャレンジしてみます。
いろいろなサイトを作ってるかとお見受けしますが、
情報交換でもしましょう(^^
本が届きましたぁぁ。
この本おもしろいですね。
今、じっくり読んでおります。