Pykhtml.

pykhtml adalah modul python untuk menulis skraper / spider situs web.
Unduh sekarang

Pykhtml. Peringkat & Ringkasan

Iklan

  • Rating:
  • Lisensi:
  • BSD License
  • Harga:
  • FREE
  • Nama Penerbit:
  • Paul Giannaros
  • Situs web penerbit:
  • http://paul.giannaros.org/pykhtml/

Pykhtml. Tag


Pykhtml. Keterangan

PYKHTML adalah modul python untuk menulis skraper / spider situs web. PYKHTML adalah modul python untuk menulis skraper / spider situs web. Sedangkan metode tradisional fokus pada penulisan kode untuk menguraikan HTML / Forms sendiri, Pykhtml menggunakan mesin KHTML yang sangat baik untuk melakukan semua pekerjaan trudge. Oleh karena itu menangani halaman web dengan sangat baik (bahkan yang sangat kasar) dan cukup cepat (diimplementasikan dalam C ++ ). Sebagai bonus modul menangani javascript dan cookie transparan. How?pykhtml membutuhkan pykde 3 (dan karenanya pada gilirannya pyqt 3 + kde libs). Jika Anda ingin menjalankan pykhtml di server tanpa tampilan X maka diperlukan XVFB. Untungnya persyaratan ini harus dibundel dengan sebagian besar distribusi Linux modern, dan dukungan untuk Windows / Mac akan muncul dalam beberapa bulan ke depan. Tunjukkan beberapa kodeOkay. Berikut ini adalah contoh (salah satu dari banyak contoh yang termasuk dalam bundel) yang menggores judul dan navigasi dari halaman ini, dengan komentar berlebihan untuk memberi Anda perasaan apa yang diprogram dengan pykhtml seperti: impor pykhtmlpykhtmlurl = "http: // paul. giannaros.org/pykhtml"def extractbitsfrompage (browser): # getelementsbytagname mengembalikan generator, jadi kami mengkonversi # ke daftar dan mengakses title elemen pertama = daftar (browser.document.getElntagname ("title")) Judul: ", title.text # Dapatkan teks navigasi item navigasi = [] # pertama dapatkan wadah item daftar ... navigationelement = browser.document.getelementByid (" navigasi ") # ... dan kemudian atas elemen Li yang kami temukan untuk listitem di navigationelement .text) cetak "navigasi:", "| .join (navigasi) # Berhenti di sini, kita sudah selesai pykhtml.stopeven tloop () def main (): browser = pykhtml.browser () # peramban dilewatkan sebagai parameter untuk mengekstrakbitsFrompage # ketika disebut (ketika halaman telah dimuat) browser.load (pykhtmlurl, extractbitsfrompage) # tendang hal-hal dari pykhtml .starteventloop () utama ()


Pykhtml. Perangkat Lunak Terkait

Pafiledb.

PAFILEDB adalah skrip yang memungkinkan webmaster memiliki basis data file untuk diunduh di situs mereka. ...

782

Unduh

Gambar Repositori

Repositori Gambar menyediakan repositori gambar terpusat yang mampu menampung ribuan gambar dengan kata kunci / penelusuran berbasis tag. ...

200

Unduh