Tabel Hash Terdistribusi

Tabel hash terdistribusi (Bahasa Inggris Distributed Hast Tabel "DHT" ) adalah sistem terdistribusi yang menyediakan layanan pencarian yang mirip dengan tabel hash: pasangan atribut nilai disimpan dalam Tabel Hash Terdistribusi, dan setiap node yang berpartisipasi dapat secara efisien mengambil nilai yang terkait dengan kunci yang diberikan. Keuntungan utama dari Tabel Hash Terdistribusi adalah bahwa node dapat ditambahkan atau dihapus dengan pekerjaan minimum di sekitar mendistribusikan ulang kunci. Kunci adalah pengidentifikasi unik yang memetakan ke nilai tertentu, yang pada gilirannya dapat berupa apa saja mulai dari alamat, dokumen, hingga data arbitrer.[1] Tanggung jawab untuk memelihara pemetaan dari kunci ke nilai didistribusikan di antara node, sedemikian rupa sehingga perubahan dalam set tidak menyebabkan gangguan yang berarti. Hal ini memungkinkan Tabel Hash Terdistribusi untuk menskalakan ke jumlah node yang sangat besar dan untuk menangani kedatangan, keberangkatan, dan kegagalan node yang berkelanjutan. Tabel Hash Terdistribusi membentuk infrastruktur yang dapat digunakan untuk membangun layanan yang lebih kompleks, seperti anycast, cache web kooperatif, sistem file terdistribusi, sistem penamaan domain, pesan instan, multisiar, dan juga berbagi file peer-to-peer dan sistem distribusi konten. Jaringan terdistribusi terkemuka yang menggunakan tabel hash terdistribusi adalah pelacak terdistribusi BitTorrent, Coral Konten Distribution Network, jaringan Kad, Storm botnet, Tox instant messenger, Freenet, mesin pencari YaCy, dan InterPlanetary File System.

Sejarah

Penelitian Tabel Hash Terdistribusi awalnya dimotivasi, sebagian, oleh sistem peer-to-peer (P2P) seperti Freenet, Gnutella, BitTorrent dan Napster, yang memanfaatkan sumber daya yang didistribusikan di Internet untuk menyediakan satu aplikasi yang berguna. Secara khusus, mereka memanfaatkan peningkatan kapasitas bandwidth dan hard disk untuk menyediakan layanan berbagi file.[2] Sistem ini berbeda dalam cara mereka menemukan data yang ditawarkan oleh P2P yang lain. Napster, sistem pengiriman konten P2P skala besar pertama, memerlukan server indeks pusat: setiap node, setelah bergabung, akan mengirim daftar file yang disimpan secara lokal ke server, yang akan melakukan pencarian dan merujuk kueri ke node yang menyimpan hasil. Komponen utama ini membuat sistem rentan terhadap serangan dan tuntutan hukum.

Gnutella dan jaringan serupa diganti ke model query flooding – intinya, setiap pencarian akan menghasilkan pesan yang disiarkan ke setiap mesin lain dalam jaringan. Sambil menghindari single point of failure, metode ini secara signifikan kurang efisien dibandingkan Napster. Versi klien Gnutella yang lebih baru pindah ke model kueri dinamis yang sangat meningkatkan efisiensi.[3]

Freenet sepenuhnya didistribusikan, tetapi menggunakan perutean berbasis kunci heuristik di mana setiap file dikaitkan dengan kunci, dan file dengan kunci serupa cenderung mengelompok pada kumpulan node yang serupa. Kueri kemungkinan akan dirutekan melalui jaringan ke klaster seperti itu tanpa perlu mengunjungi banyak peer.[4] Namun, Freenet tidak menjamin bahwa data akan ditemukan.

Tabel hash terdistribusi menggunakan perutean berbasis kunci yang lebih terstruktur untuk mencapai baik desentralisasi Freenet dan Gnutella, serta efisiensi dan jaminan hasil seperti Napster. Salah satu kelemahannya adalah seperti Freenet, Tabel Hash Terdistribusi hanya secara langsung mendukung pencarian pencocokan tepat, bukan pencarian kata kunci, meskipun algoritma perutean Freenet dapat digeneralisasikan ke semua jenis kunci di mana operasi kedekatan dapat ditentukan.[5]

Pada tahun 2001, empat sistem — CAN,[6] Chord,[7] Pastry, dan Tapestry — memicu Tabel Hash Terdistribusi sebagai topik penelitian yang populer. Sebuah proyek bernama Infrastructure for Resilient Internet Systems (Iris) didanai oleh hibah $12 juta dari United States National Science Foundation pada tahun 2002.[8] Peneliti termasuk Sylvia Ratnasamy, Ion Stoica, Hari Balakrishnan dan Scott Shenker.[9] Di luar akademisi, teknologi Tabel Hash Terdistribusi telah diadopsi sebagai komponen BitTorrent dan di Coral Content Distribution Network.

Properti

Tabel Hash Terdistribusi secara khas menekankan sifat-sifat berikut:[10]

  • Otonomi dan desentralisasi: node secara kolektif membentuk sistem tanpa koordinasi pusat.
  • Toleransi kesalahan: Sistem harus dapat diandalkan (dalam beberapa hal) bahkan dengan node yang terus-menerus bergabung, keluar, dan gagal.[10]
  • Skalabilitas: Sistem harus berfungsi secara efisien bahkan dengan ribuan atau jutaan node.[10]

Teknik kunci yang digunakan untuk mencapai tujuan bahwa setiap node perlu berkoordinasi dengan hanya beberapa node lain dalam sistem – paling umum, O (log n ) dari n peserta (lihat di bawah) – sehingga hanya sejumlah terbatas pekerjaan yang harus dilakukan untuk setiap perubahan keanggotaan. Beberapa desain Tabel Hash Terdistribusi berusaha untuk mengamankan dari peserta jahat[11] dan untuk memungkinkan peserta untuk tetap anonim, meskipun ini kurang umum daripada di banyak sistem peer-to-peer (terutama file sharing ).

Struktur

Struktur Tabel Hash Terdistribusi dapat diuraikan menjadi beberapa komponen utama.[12][13] Fondasinya adalah ruang kunci abstrak, seperti kumpulan string 160-bit. Skema partisi keyspace membagi kepemilikan keyspace ini di antara node yang berpartisipasi. Jaringan overlay kemudian menghubungkan node, memungkinkan mereka untuk menemukan pemilik kunci yang diberikan di keyspace. Setelah komponen-komponen ini berada di tempatnya, penggunaan Tabel Hash Terdistribusi yang khas untuk penyimpanan dan pengambilan dapat dilanjutkan sebagai berikut. Misalkan keyspace adalah kumpulan string 160-bit. Untuk mengindeks file dengan yang diberikan filename dan data dalam Tabel Hash Terdistribusi, hash SHA-1 filename dihasilkan, menghasilkan kunci 160-bit k, dan pesan yang put(k, data) dikirim ke setiap node yang berpartisipasi dalam Tabel Hash Terdistribusi. Pesan diteruskan dari node ke node melalui jaringan overlay hingga mencapai node tunggal yang bertanggung jawab untuk kunci k seperti yang ditentukan oleh partisi keyspace. Node itu kemudian menyimpan kunci dan datanya. Klien lain kemudian dapat mengambil isi file dengan hashing lagi filename untuk menghasilkan k dan meminta node Tabel Hash Terdistribusi untuk menemukan data yang terkait dengan k dengan pesan get(k). Pesan akan dirutekan lagi melalui overlay ke node yang bertanggung jawab untuk k, yang akan membalas dengan data disimpan. Partisi keyspace dan komponen jaringan overlay dijelaskan di bawah ini dengan tujuan menangkap ide-ide utama yang umum untuk sebagian besar Tabel Hash Terdistribusi; banyak desain berbeda dalam detailnya.

Referensi

  1. ^ Stoica, I.; Morris, R.; Karger, D.; Kaashoek, M. F.; Balakrishnan, H. (2001). "Chord: A scalable peer-to-peer lookup service for internet applications" (PDF). ACM SIGCOMM Computer Communication Review. 31 (4): 149. doi:10.1145/964723.383071. A value can be an address, a document, or an arbitrary data item. 
  2. ^ Liz, Crowcroft; et al. (2005). "A survey and comparison of peer-to-peer overlay network schemes" (PDF). IEEE Communications Surveys & Tutorials. 7 (2): 72–93. doi:10.1109/COMST.2005.1610546. 
  3. ^ Richter, Stevenson; et al. (2009). "Analysis of the impact of dynamic querying models on client-server relationships" (PDF). Trends in Modern Computing: 682–701. 
  4. ^ Sandberg, O. (2005). Searching in a Small World Chapters 1 & 2 (PDF) . Chalmers University of Technology and Goteborg University. hlm.40.Diakses pada 10-12-2021.
  5. ^ Clarle, Ian. (1999). "Section 5.2.2" (PDF), A Distributed Decentralized Information Storage and Retrieval System . hlm. 21. Diakses pada 2021-12-10
  6. ^ Ratnasamy; et al. (2001). "A Scalable Content-Addressable Network" (PDF). In Proceedings of ACM SIGCOMM 2001. Diakses tanggal 01-12-2021. 
  7. ^ Hari Balakrishnan, M. Frans Kaashoek, David Karger, Robert Morris, and Ion Stoica. Looking up data in P2P systems. In Communications of the ACM, February 2003.
  8. ^ David Cohen (October 1, 2002). "New P2P network funded by US government". New Scientist. Diakses tanggal 01-12-2021. 
  9. ^ "MIT, Berkeley, ICSI, NYU, and Rice Launch the IRIS Project". Press release. MIT. September 25, 2002. Diarsipkan dari versi asli tanggal September 26, 2015. Diakses tanggal 01-12-2021. 
  10. ^ a b c R Mokadem, A Hameurlain and AM Tjoa. Resource discovery service while minimizing maintenance overhead in hierarchical DHT systems. Proc. iiWas, 2010
  11. ^ Guido Urdaneta, Guillaume Pierre and Maarten van Steen. A Survey of DHT Security Techniques. ACM Computing Surveys 43(2), January 2011.
  12. ^ Manku, Gurmeet Singh (2004). Dipsea: A Modular Distributed Hash Table (dalam bahasa Inggris). Stanford University. hlm. 1. 
  13. ^ Moni Naor and Udi Wieder. Novel Architectures for P2P Applications: the Continuous-Discrete Approach. Proc. SPAA, 2003.