Jeffrey Cross
Jeffrey Cross

Di manakah pencarian diedarkan secara terbuka?

Kembali sebelum Google, banyak penggodam sedang menulis enjin carian dalam masa lapang mereka. Kesepakatan umum, sekurang-kurangnya dari ingatan saya sendiri, adalah pencarian itu merupakan masalah yang perlu diselesaikan, dan semua penyelesaian semasa lebih kurang disedut. Hari ini, carian merangkumi wilayah yang besar dan masih terdapat banyak masalah yang perlu diselesaikan, tetapi, untuk sebahagian besar, carian web sangat berguna dan boleh dipercayai. Ia tidak sempurna, ada ruang untuk penambahbaikan, tetapi ia mendapat pekerjaan yang dilakukan. Saya tidak tahu terlalu banyak orang hari ini yang menghabiskan masa penggodaman carian mereka. Mengapakah semula mewujudkan perkhidmatan tingkat rendah seperti begitu banyak aplikasi web yang inovatif dan lebih tinggi dibina?

Perkaranya ialah, carian adalah sistem operasi web. Fakta bahawa kita tidak mempunyai infrastruktur carian terbuka / terbuka-data sama buruknya jika tidak ada Linux atau OpenBSD. Jika Google, Yahoo dan MS tidak menyediakan produk yang hebat, saya rasa bahawa komuniti penggodam akan menyerang masalah ini seperti Captain Kirk pada raksasa kadal.

Dimanakah kita:

Pada masa ini, terdapat beberapa projek sumber terbuka yang berkaitan dengan carian web am. Terutama, projek Lucene berasaskan Java adalah asas kukuh untuk pengindeksan dan pengambilan maklumat, dan inilah yang dijana oleh enjin carian Nutch.

Terdapat beberapa crawler diedarkan seperti Grub dan Majestic 12. Sayangnya, kedua-duanya mengalihkan data ke sistem storan peribadi yang tersendiri. Kerja keras merangkak dan pengindeksan terbuka untuk semua orang untuk mengambil bahagian, tetapi data yang dihasilkan tidak.

Di mana Kita Perlu:

Di dalam fikiran saya, cari penggodam perlu membuat penyelesaian sumber terbuka untuk yang berikut:

  • Mekanisme yang diedarkan untuk merangkak dan mengindeks web secara besar-besaran.
  • Menyebar, terdesentralisasi, penyimpanan data yang berlebihan untuk cache dan indeks.
  • Pengguna akhir, muka depan awam untuk menanyakan indeks diedarkan.
  • Mekanisme untuk mendapatkan semula atau merangkak keping indeks dan cache tempatan, untuk penyelidikan atau kegunaan peribadi.
  • Cara untuk menerbitkan model pengindeksian ganti ke grid yang diedarkan.

Semua alat ini perlu direka bentuk dengan andaian bahawa sesiapa sahaja boleh dan akan mempunyai akses kepada data sistem, dan apabila sistem itu berkembang, akan ada orang, syarikat, dan kerajaan yang berusaha keras merosakkan infrastruktur carian untuk kelebihan mereka.

Ia bukan masalah mudah untuk diselesaikan, tetapi anda harus mengakui ia adalah satu masalah yang menarik. Sesiapa yang berminat mencari Torvalds carian?

Di mana Mulakan:

The Lucene Project - Link Nutch Open Source Search Engine - Link Open Source Search Wiki - Link

Adakah saya terlepas apa-apa? Sila berkongsi pandangan anda tentang carian sumber terbuka dalam komen.

Kongsi

Meninggalkan Komen