وب پنهان - ویکی‌پدیا، دانشنامهٔ آزاد

یک مثال از وب. سطح بالا وب سطحی، سطح میانی دیپ وب، سطح پایین و آخر دارک وب را نشان می‌دهد.

وب پنهان،^[۱] وب عمیق^[۲] یا دیپ وب (به انگلیسی: Deep web) بخشی از دنیای اینترنت و وب جهان‌گستر است که توسط موتورهای جستجوی معمولی فهرست نشده‌است. این مفهوم، در نقطهٔ مقابل «وب سطحی» است که برای هر کسی که از اینترنت استفاده می‌کند قابل دسترسی است.^[۳] دانشمند علوم رایانه، مایکل کی. برگمن، این واژه را در سال ۲۰۰۱ اختراع کرد.^[۴]

پایگاه‌های وب عمیق را می‌توان با یک نشانی اینترنتی مستقیم یا نشانی آی‌پی مشاهده کرد؛ اما ممکن است برای دسترسی به محتوای اصلی نیاز به واردکردن رمز عبور یا سایر اطلاعات امنیتی داشته باشد.^[۵]^[۶] استفاده‌های دیگر وب عمیق شامل رایانامه، بانکداری آنلاین، فضای ذخیره‌سازی ابری، صفحه‌ها و نمایه‌های شبکه‌های اجتماعی با دسترسی محدود و تالارهای گفت‌وگویی است که نیاز به ثبت‌نام برای مشاهدهٔ محتوا دارند. همچنین شامل خدمات نیازمند پرداخت، همانند ویدیو به‌درخواست و بعضی مجله‌ها و روزنامه‌های آنلاین است.

اندازه

در سال ۲۰۰۰، مایکل کی. برگمن گفت چگونه جستجو کردن در اینترنت را می‌توان با کشیدن یک شبکه در میان سطح یک اقیانوس مقایسه کرد: ممکن است که یک معامله خوب در شبکه بدست بیاید، اما ثروتی از اطلاعات وجود دارد که عمیق و در نتیجه از دست رفته‌است. بسیاری از اطلاعات وب بسیار پایین در سایت‌ها دفن شده‌اند، و موتورهای جستجوی استاندارد آن‌ها را پیدا نمی‌کنند. موتورهای جستجوی سنتی نمی‌توانند محتوای دیپ وب (وب عمیق) را ببینند یا بازیابی کنند. بخشی از وب توسط موتورهای جستجوی لیست شده به عنوان وب سطحی شناخته می‌شود. در سال ۲۰۰۱، دیپ وب چندین برابر بزرگتر از وب سطحی بود. یک مقایسه از کوه یخ توسط دنیس شستاکوف نشان دهندهٔ تفاوت بین وب سطحی و دیپ وب است که در آن، وب سطحی قسمت روی آب و دیپ وب قسمت بسیار وسیع زیر آب است که دیده نمی‌شود.

اندازه گرفتن یا تخمین زدن اندازه و عمق دیپ وب کاری غیرممکن است؛ زیرا اکثر پایگاه‌های داده، دارای اطلاعات قفل شده و رمزگذاری شده هستند. تخمین‌های اولیه نشان می‌دهد دیپ وب ۴۰۰ تا ۵۵۰ بار بزرگتر از وب سطحی است. با این حال از آنجا که همیشه اطلاعات و سایت‌های بیشتری در حال اضافه شدن است می‌توان فرض کرد که دیپ وب در حال رشد در نرخی است که نمی‌توان برایش مقداری تعیین کرد.

براوردهای مبتنی بر تعمیم دهی از یک مطالعه انجام شده در دانشگاه کالیفرنیا برکلی در سال ۲۰۰۱ اندیشید که دیپ وب حدوداً شامل ۷٫۵ پتابایت می‌شود. تخمین‌های دقیق‌تری نیز برای تعداد منابع در دیپ وب وجود دارد: تحقیقات او و همکارانش. حدود ۳۰۰۰۰۰ دیپ وب سایت در سال ۲۰۰۴ در کل وب شناسایی شده، و با توجه به شستاکوف، حدود ۱۴۰۰۰ دیپ وب سایت در بخش روسی وب در سال ۲۰۰۶ وجود دارد.

پیدایش واژه دیپ وب

برگمن در یک مقاله در دیپ وب، یک مجله الکترونیکی انتشاراتی، ذکر کرد که جیل السورث از اصطلاح وب پنهان در سال ۱۹۹۴ استفاده کرد که به وب سایت‌هایی که توسط هیچ موتور جستجویی ثبت نام نشده بودند اشاره می‌کرد. برگمن به مقاله‌ای که توسط فرانک گارسیا در ژانویه سال ۱۹۹۶ نوشته شده بود اشاره کرد:

«ممکن است یک سایت به دلایل منطقی‌ای طراحی شده باشد، ولی آن‌ها زحمت ثبت‌نام کردن آن در هیچ‌یک از موتورهای جستجو را به خود ندادند؛ بنابراین، هیچ‌کس نمی‌تواند آن‌ها را پیدا کند! شما پنهان هستید. من آن‌ها را وب مخفی می‌نامم.»

یکی دیگر از استفاده‌های اولیه از اصطلاح وب مخفی توسط بروس مونت و متئو بی. کل از کتابخانه نرم‌افزار شخصی، در یک توصیف از اولین ابزار شناخته شده دیپ وب در یک مصاحبه مطبوعاتی در دسامبر سال ۱۹۹۶ بود.

اولین استفاده از اصطلاح خاص دیپ وب، که در حال حاضر به‌طور کلی پذیرفته شده، در مطالعه مذکور برگمن رخ داده‌است.

انواع محتوا

روش‌هایی که از لیست شدن صفحات وب توسط مرورگرهای سنتی جلوگیری می‌کند ممکن است به‌عنوان یک یا بیشتر از موارد زیر طبقه‌بندی شود:

وب متنی: صفحاتی با محتوای متفاوت برای دسترسی‌های مختلف به متون. (مثل محدوده‌هایی از آدرس‌های آی‌پی یا نتیجهٔ دنباله‌های قبلی)
محتوای پویا: صفحات پویا که به عنوان پرسشی به پرس‌وجوهای ارسال شده برگردانده می‌شوند.
محتوای دسترسی محدود: سایت‌هایی که دسترسی به صفحاتشان را با روش‌های تکنیکی محدود می‌کنند (مثل استاندارد ممانعت از ربات‌ها یا کپچا، یا … که موتورهای جستجو را از لیست‌بندی آن‌ها و تهیه کپی کَش منع می‌کند)
محتوای غیرمتنی/اچ‌تی‌ام‌ال: محتوای متنی در فایل‌های چند رسانه‌ای (عکس یا فیلم) کدگذاری می‌شوند یا فرمت‌های خاصی از فایل‌ها توسط موتورهای جستجو
وب خصوصی: سایت‌هایی که ثبت‌نام و ورود نیاز دارند (منابع محافظت‌شده توسط کلمه عبور)
محتوای اسکریپت شده: صفحاتی که تنها از طریق لینک‌های تولید شده توسط جاوا اسکریپت قابل دسترسی هستند مثل محتوایی که به صورت پویا از وب سرورها به‌وسیلهٔ شخص یا فلش دانلود می‌شود.
نرم‌افزار: برخی از محتواها عمداً از اینترنت عادی مخفی شده‌اند، و تنها با نرم‌افزارهای خاصی مثل تور و آی تو پی یا سایر نرم‌افزارهای دارک نت قابل دسترسی هستند. تور به کاربران اجازه می‌دهد به وب سایت‌هایی که از آدرس دامنه .onion استفاده می‌کنند به صورت بی‌نام و مخفی کردن نشانی آی‌پی خود دسترسی پیدا کنند
محتوای لینک‌نشده: صفحاتی که با صفحات دیگر لینک نشده‌اند، ممکن است توسط برنامه‌های پوششی وب از دسترسی به محتوا منع شوند. این محتوا به مانند پیج‌هایی است که بک لینک ندارند. (به‌عنوان این لینک هم شناخته می‌شوند) همچنین موتورهای جستجو همیشه همهٔ بک لینک‌ها را از صفحات وب جستجو شده شناسایی نمی‌کند.
آرشیوهای وب: سرویس‌های آرشیوی وب مثل «وی‌بک ماشین» کاربران را قادر به دیدن نسخهٔ آرشیو شدهٔ صفحات وب در طول زمان می‌سازد، شامل وب‌سایت‌هایی که غیرقابل دسترسی شده‌اند، و توسط موتورجستجوهایی مثل گوگل، لیست‌بندی نشده‌اند.

روش‌های لیست‌بندی

وقتی که همیشه ممکن نیست به‌طور مستقیم محتوای یک وب سرور خاص را کشف کرد به‌طوری‌که ممکن است لیست شده باشد، یک سایت به‌طور بالقوه می‌تواند به صورت غیر مستقیم به آن دسترسی داشته باشد (به دلیل آسیب‌پذیری کامپیوترها)

برای کشف کردن محتوا در وب، موتورهای جستجو از خزندگان وب استفاده می‌کنند که لینک‌ها را از طریق پروتوکل شناخته شدهٔ اعداد پورت مجازی دنبال می‌کند. این تکنیک برای کشف کردن محتوا در وب سطحی مناسب است اما اغلب برای کشف محتوا در دیپ وب نا کارامد است؛ مثلاً، این خزندگان (پوشش دهندگان) تلاشی برای پیدا کردن صفحات پویا که نتیجهٔ جستارهای پایگاه داده به دلیل تعداد نامشخص جستارها، نمی‌کنند.

جستارهای وابسته

منابع

↑ Devine, Jane; Egger-Sider, Francine (2004-07-01). "Beyond google: the invisible web in the academic library". The Journal of Academic Librarianship (به انگلیسی). 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010. ISSN 0099-1333.
↑ Hamilton, Nigel (2019–2020). "The Mechanics of a Deep Net Metasearch Engine". In Isaías, Pedro; Palma dos Reis, António (eds.). Proceedings of the IADIS International Conference on e-Society. pp. 1034–6. CiteSeerX 10.1.1.90.5847. ISBN 978-972-98947-0-1.
↑ "What is Surface Web?". www.computerhope.com (به انگلیسی). Retrieved 2023-07-21.
↑ Wright، Alex (۲۰۰۹-۰۲-۲۳). «Exploring a 'Deep Web' That Google Can't Grasp» (به انگلیسی). The New York Times. شاپا 0362-4331. دریافت‌شده در ۲۰۲۳-۰۷-۲۱.
↑ Madhavan, J. , Ko, D. , Kot, Ł. , Ganapathy, V. , Rasmussen, A. , & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.
↑ Shedden, Sam (June 8, 2014). "How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web". Sunday Mail. Archived from the original on March 1, 2020.

[1] Devine, Jane; Egger-Sider, Francine (2004-07-01). "Beyond google: the invisible web in the academic library". The Journal of Academic Librarianship (به انگلیسی). 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010. ISSN 0099-1333.

[2] Hamilton, Nigel (2019–2020). "The Mechanics of a Deep Net Metasearch Engine". In Isaías, Pedro; Palma dos Reis, António (eds.). Proceedings of the IADIS International Conference on e-Society. pp. 1034–6. CiteSeerX 10.1.1.90.5847. ISBN 978-972-98947-0-1.

[3] "What is Surface Web?". www.computerhope.com (به انگلیسی). Retrieved 2023-07-21.

[4] Wright، Alex (۲۰۰۹-۰۲-۲۳). «Exploring a 'Deep Web' That Google Can't Grasp» (به انگلیسی). The New York Times. شاپا 0362-4331. دریافت‌شده در ۲۰۲۳-۰۷-۲۱.

[5] Madhavan, J. , Ko, D. , Kot, Ł. , Ganapathy, V. , Rasmussen, A. , & Halevy, A. (2008). Google's deep web crawl. Proceedings of the VLDB Endowment, 1(2), 1241–52.

[6] Shedden, Sam (June 8, 2014). "How Do You Want Me to Do It? Does It Have to Look like an Accident? – an Assassin Selling a Hit on the Net; Revealed Inside the Deep Web". Sunday Mail. Archived from the original on March 1, 2020.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]