Teks :: Catatan :: Pengemudi

Pisahkan catatan teks lengkap, parsial dan dekat duplikat
Unduh sekarang

Teks :: Catatan :: Pengemudi Peringkat & Ringkasan

Iklan

  • Rating:
  • Lisensi:
  • Perl Artistic License
  • Harga:
  • FREE
  • Nama Penerbit:
  • Kim Ryan
  • Situs web penerbit:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Teks :: Catatan :: Pengemudi Tag


Teks :: Catatan :: Pengemudi Keterangan

Pisahkan catatan teks lengkap, parsial dan dekat duplikat Teks :: Catatan :: deduper adalah modul Perl dengan rekaman teks duplikat lengkap, parsial dan dekat duplikat $ deduper saya = teks baru :: catatan :: deduper; # Temukan dan hapus seluruh baris yang duplikat $ deduper-> dedupe_file ("orig.txt"); # DEDUPE COMMA dipisahkan catatan, duplikat didefinisikan oleh beberapa bidang $ deduper-> field_separatator (','); $ deduper-> add_key (field_number => 1, entle_case => 1); $ deduper-> add_key (field_number => 2, entle_whitespace => 1); # Catatan unik pergi ke file names_uniqs.csv, dupes ke nama_dupes.csv $ deduper-> dedupe_file ('names.csv'); # Temukan 'Near' Dupes dengan memungkinkan nama alias yang diberikan% Nick_names = (Bob => 'Robert', Rob => 'Robert'); $ near_deduper = teks baru :: Catatan :: deduper (); $ near_deduper-> add_key (field_number => 2, alias => \% nick_names) atau mati; $ near_deduper-> dedupe_file ('names.txt'); # Buat laporan teks, nama_report.txt untuk mengidentifikasi semua duplikat $ near_deduper-> Report_file ('names.txt', all_records => 1); # Temukan 'Near' Dupes dalam array catatan, pengembalian referensi # ke array unik dan duplikat saya ($ uniqs, $ dupes) = $ near_deduper-> dedupe_ray (@some_records); modul ini memungkinkan Anda untuk mengambil file teks Records dan membaginya menjadi file unik dan file duplikat Records.Records didefinisikan sebagai seperangkat bidang. Bidang dapat dipisahkan oleh spasi, koma, tab atau pembatas lainnya. Catatan dipisahkan oleh baris baru. Jika tidak ada opsi yang ditentukan, duplikat akan dibuat hanya ketika semua bidang dalam catatan (seluruh baris) duplikat. Dengan menentukan opsi Rekor duplikat didefinisikan oleh bidang atau bidang parsial tidak terjadi lebih dari sekali per rekor. Ada juga opsi untuk mengabaikan sensitivitas kasus, memimpin dan membuntuti ruang putih. Secara baik 'dekat' atau 'fuzzy' duplikat dapat didefinisikan. Ini dilakukan dengan membuat alias, seperti Bob => Robert. Modul ini berguna untuk menemukan duplikat yang telah dibuat oleh beberapa entri data, atau menggabungkan catatan serupa. Persyaratan: · Perl.


Teks :: Catatan :: Pengemudi Perangkat Lunak Terkait