Duyuruyu Kapat
Facebook Gözat
Twitter Gözat

html parser

Konu, 'Yazılım Geliştirme' kısmında Volkan Uzun tarafından paylaşıldı.

  1. Volkan Uzun

    Volkan Uzun Daimi Üye

    Kayıt:
    14 Kasım 2002
    Mesajlar:
    3,312
    Beğenilen Mesajlar:
    0
    Meslek:
    Software Developer @ DELL
    Şehir:
    Skype
    selamlar,
    yazdigim bir programla bir html sayfasını download etmek istiyorum. buraya kadar ok. sonra html icindeki textleri parse edip bir editboxa yazicam.yani site icindeki sadece bilgi kısmını alıcam.
    bunun icin "<" karakteri ile">" karakterlerini seciyorum
    bunun disindaki herseyi yazdiriyordum ama karsima javascriptler fonksiyonlar falan cikti. onlarda bilgi olarak alindi. bu seferde gidip, "<...>" ile baslayan "</..> ile bitenlerin arasini aliyim dedim ama her tagi herkes </..> ile kapatmıyor.
    aklıma baska algoritmada gelmedi. sizin aklınızda varmı ?
    not : denemeleri en cok baglandigim site olan forum.ceviz.nette yaptım umarım sorun yoktur :)
     
  2. Volkan Uzun

    Volkan Uzun Daimi Üye

    Kayıt:
    14 Kasım 2002
    Mesajlar:
    3,312
    Beğenilen Mesajlar:
    0
    Meslek:
    Software Developer @ DELL
    Şehir:
    Skype
    himm . sadece <body> ve </body> arasini aldim bir adim ilerleme olarak ama hala <body></body> arasinda scriptler var bunlar nasıl ayirt ederimki ?
     
  3. dankyy1

    dankyy1 Üye

    Kayıt:
    31 Temmuz 2004
    Mesajlar:
    117
    Beğenilen Mesajlar:
    0
    siz konuyla ilgili problem belirtiyorsunuz ama ;
    benimde bir html parser a ihtiyacım var
    nasıl yaparız c# ta biraz bilgi verebilirmisiniz....
    teşekkürler
     
  4. HunTER

    HunTER ...

    Kayıt:
    15 Ağustos 2002
    Mesajlar:
    8,684
    Beğenilen Mesajlar:
    0
    Meslek:
    Web Programlama
    Şehir:
    İstanbul
    Bahsettıgın ıslemlerden once <script.*> .. </script> ve <style.*> .. </style> taglarını tumden kaldırırsan sanırım sorun hallolur.. Hatta kullandıgın programlama dılınde PHP'dekıne benzer bır duzenlı ıfade destegı varsa suna benzer bısey yapabılırsın,

    PHP:
    <?
    $html "
    <html>
    <head>
      <title>Başlık</title>
      <style>
        body{color:silver}
      </style>
    </head>
    <body>
      İçerik
      <script>
        alert(Merhaba Dünya!);
      </script>
    </body>
    </html>
    "
    ;

    $html preg_replace("'<(script|style).*>.*</\\1>'is","",$html);
    $html preg_replace("'<[^>]*>'is","",$html);
    $html preg_replace("'(\r|\n| ){2,}'is"," ",$html);

    echo 
    trim($html);
    ?>
    ?>