Internet Archive – Wikipédia, a enciclopédia livre

Internet Archive
Internet Archive
Logotipo do website.
Requer pagamento? Não
Gênero Biblioteca digital
Cadastro Opcional
Idioma(s) Inglês
Lançamento 12 de maio de 1996 (28 anos)[1][2]
Endereço eletrônico https://archive.org/

https://web.archive.org

Estado atual Ativo

Internet Archive é uma organização sem fins lucrativos dedicada a manter um arquivo multimídia de informações.[3] Ela foi fundada por Brewster Kahle em 1996 e se localiza em São Francisco, Califórnia. O arquivo inclui "capturas" (ou snapshots) de páginas da internet. Essas capturas são cópias arquivadas das páginas e podem estar disponíveis em mais de uma versão, caso tenham sido arquivadas em momentos diferentes. Isso permite observar sua evolução.[4] O arquivo inclui também software, filmes, livros, e gravações de áudio (inclusive gravações de shows/concertos ao vivo de bandas que o permitem). O acervo pretende manter uma cópia digital desses materiais para consulta histórica.[5]

A organização, para justificar sua missão, faz referência ao caso da Biblioteca de Alexandria. Pois ela tem o objetivo de preservar o conhecimento humano e disponibilizá-lo a todos, evitando que ele se perca por razões diversas (como ocorreu, tragicamente, no caso da biblioteca supracitada).[6]

Seu acervo abriga um grande número de arquivos de vários tipos, como áudio, vídeo e texto, a grande maioria deles no domínio público, com licenças Creative Commons ou outras licenças que permitem a distribuição gratuita.

Em 9 de outubro de 2024, a biblioteca Internet Archive sofreu um ataque distribuído de negação de serviço (DDoS-Attack) que tornou o site inutilizável. 31 milhões de contas de usuários do Internet Archive foram afetadas pelo ataque.[7][8] Os cibercriminosos acessaram a base de dados de autenticação desses usuários.[9]

Em 13 de outubro de 2024, a Wayback Machine voltou ao ar (online), embora no modo "somente leitura".[10] Os outros sites gerenciados pelo Internet Archive, como o OpenLibrary.org, permanecem inativos desde 18 de outubro de 2024.[11]

Em 20 de outubro, os agentes de ameaça roubaram tokens de API não rotacionados para violar a plataforma de suporte por e-mail Zendesk do Internet Archive; eles também reivindicaram a responsabilidade pelas violações, mas afirmaram que o SN_BlackMeta estava por trás apenas dos ataques DDoS.[12][13]

Foi a primeira vez, em seus quase 30 anos de existência, que o site sofre uma interrupção maior do que algumas horas, segundo seu fundador Brewster Kahle. O Internet Archive foi fundado em 1996 e mantém o maior e mais antigo arquivo da Internet. Tem como missão constituir-se em uma "biblioteca de tudo", garantindo que os registros sejam mantidos em um ambiente on-line, onde os sites mudam e desaparecem de um dia para o outro. Uma semana depois do ataque, ainda não havia sido restaurado o acesso ao Internet Archive e às mais de 900 bilhões de páginas da Web preservadas no Wayback Machine. Mas, mesmo antes desses ataques, o Internet Archive já enfrentava sérios problemas, tais como as ações judiciais, movidas em 2020 e 2023, pelas editoras de livros e gravadoras de música, por digitalizar livros e músicas protegidos por direitos autorais, o que a organização argumentou que deveria ser permitido para fins não comerciais e de arquivamento. Kahle acredita que as multas de centenas de milhões de dólares decorrentes dessas ações judiciais, ainda em andamento, possam afundar o Internet Archive. Scott Helme, um pesquisador de cibersegurança, declarou que o episódio demonstra a vulnerabilidade de serviços sem fins lucrativos, como o Internet Archive - e do ecossistema maior de informações on-line que depende deles. "Talvez esses serviços consigam mais financiamento agora, com todas essas manchetes", disse ele, "e que as pessoas, de repente, percebam como seria ruim se tais serviços desaparecessem."[14]

Wayback Machine

[editar | editar código-fonte]
Ver artigo principal: Wayback Machine
Scribe Machine System.

O Internet Archive tem capitalizado sobre o uso popular do termo "WABAC Machine" de um segmento do desenho animado The Rocky and Bullwinkle Show, e usa o nome "Wayback Machine" para o seu serviço que permite que arquivos da World Wide Web possam ser pesquisados e acessados.[15] Este serviço permite aos usuários visualizarem páginas da web arquivadas. O Wayback Machine foi criado como um esforço conjunto entre a Alexa Internet e o Internet Archive quando um índice tridimensional foi construído para permitir a navegação no conteúdo de paginas da web arquivadas.[16] Milhões de sites e seus dados associados (imagens, código fonte, documentos, etc) são salvos em um banco de dados gigantesco. O serviço pode ser usado para ver as versões anteriores de sites usados para parecer, para pegar o código fonte original a partir de sites que podem não ser diretamente disponíveis, ou a visitar sites que já nem sequer existem. O Termos de Uso do Internet Archive especifica que os usuários do Wayback Machine não são livres para baixar os dados da coleção. Nem todos os sites estão disponíveis porque muitos donos de sites optam por excluir os seus sites. Como em todos os sites com base em dados de crawlers, o Internet Archive perde grandes áreas da web para uma variedade de outras razões. Polarizações internacionais também foram encontrados na sua cobertura, embora isto não parece ser o resultado de uma política deliberada.[17]

O uso do termo "Wayback Machine" no contexto da Internet Archive tem se tornado tão comum que "Wayback Machine" e "Internet Archive" são quase sinônimos. Este uso ocorre na cultura popular, por exemplo, no programa de televisão Law & Order: Criminal Intent (no episódio "Legacy", que foi ao ar pela primeira vez em 3 de agosto de 2008), em que um técnico de computador usa o "Wayback Machine" para encontrar um arquivo de um estudante em um website similar ao Facebook.

O Internet Archive fornece páginas impressas e uma declaração padrão de autenticidade como provas para os tribunais de justiça.[18]

Livro sendo escaneado para o Internet Archive

O Open Library é outro projeto da Internet Archive. O site pretende incluir um banco de dados de páginas da web para todos os livros já publicados, uma espécie de versão do WorldCat em código aberto. Possui 23 milhões de registros de catálogos de livros, além de textos completos de cerca de 1,6 milhão de livros de domínio público, que são plenamente legíveis e disponíveis para download.[19][20] Open Library é um projeto de software livre, com seu código-fonte livremente disponível no site da Open Library.

O projeto Nasa Images foi criado através de um acordo do Space Act entre o Internet Archive e a NASA para levar o acesso público as imagens, vídeos e coleções de áudio da NASA produzidos ao longo dos anos através de um único arquivo totalmente indexado e acessível através de pesquisas. A equipe de imagens da NASA trabalha em estreita colaboração com todos os centros da NASA para continuar a acrescentar à coleção cada vez maior de imagens da NASA.[21] O site foi lançado em julho de 2008 e agora tem mais de 100 mil itens online.

Internet Archive Scholar

[editar | editar código-fonte]
O Internet Archive Scholar é um navegador acadêmico criado pelo Internet Archive em 2020, possuia então cerca de 25 milhões de artigos científicos com livre acesso ao texto. O material é recolhido de três formas diferentes - conteúdo identificado pelo Wayback Machine, pela digitalização de material e o envio por parte de usuários e coleções de instituições parceiras.[22][23][24]

Referências

  1. «About the Archive» (em inglês). Internet Archive 
  2. «Whois Record for InternetArchive.org» (em inglês). WHOIS 
  3. Reporter Net (2008). «Veja como eram os sites há 15 anos». Consultado em 5 de abril de 2011 
  4. Leetaru, Kalev. «The Internet Archive Turns 20: A Behind The Scenes Look At Archiving The Web» (em inglês) 
  5. «Após incêndio, Internet Archive pede doações para recuperar equipamentos». 8 de novembro de 2013. Consultado em 6 de janeiro de 2015 
  6. «Archive.org Information» (em inglês) 
  7. Jackson, Ashleigh (10 de outubro de 2024). «Internet Archive data breach exposes more than 31 million user accounts: Reports» (em inglês). The Hill (newspaper). Consultado em 15 de outubro de 2024 
  8. Newman, Lily Hay (9 de outubro de 2024). «Internet Archive Breach Exposes 31 Million Users» (em inglês). Wired (magazine). ISSN 1059-1028. Consultado em 15 de outubro de 2024 
  9. Bursztynsky, Jessica (17 de outubro de 2024). «Uma semana após ataque cibernético, Internet Archive volta ao ar». Fast Company Brasil. Consultado em 18 de outubro de 2024 
  10. @brewster_kahle (13 de outubro de 2024). «The @internetarchive's Wayback Machine resumed in a provisional, read-only manner. Sorry, no Save Page Now yet. Safe to resume but might need further maintenance, in which case it will be suspended again. Please be gentle web.archive.org More as it happens.» (Tweet) – via Twitter 
  11. Ernst, Nico (13 de outubro de 2024). «Internet Archive remains offline for the time being». heise online (em inglês). Consultado em 15 de outubro de 2024 
  12. Abrams, Lawrence (20 de outubro de 2024). «Internet Archive breached again through stolen access tokens». Bleeping Computer. Consultado em 20 de outubro de 2024 
  13. Daniel, Lars (20 de outubro de 2024). «Internet Archive Breached Again—Third Cyber Attack In October 2024». Forbes 
  14. Wu, Daniel. The world’s largest internet archive is under siege — and fighting back. The Washington Post, 18 de outubro de 2024 Cópia arquivadae em 21 de outubro de 2024.
  15. Green, Heather (28 de fevereiro de 2002). «A Library as Big as the World». Business Week Online. Consultado em 25 de junho de 2007 
  16. «Internet Archive. (2012). Frequently Asked Questions». Archive.org. Consultado em 13 de abril de 2013 
  17. Thelwall, Mike; Vaughan, Liwen (primavera de 2004). «A fair history of the Web? Examining country balance in the Internet Archive» (PDF). Library & Information Science Research. 26 (2): 162–176. doi:10.1016/j.lisr.2003.12.009 
  18. Internet Archive. «Information Requests The Internet Archive's Policy for Responding to Information Requests» (em inglês). Internet Archive 
  19. Gonsalves, Antone (20 de dezembro de 2006). «Internet Archive Claims Progress Against Google Library Initiative». InformationWeek. Consultado em 5 de janeiro de 2007 
  20. «The Open Library Makes Its Online Debut». Chronicle of Higher Education, The Wired Campus. 19 de julho de 2007. Consultado em 30 de julho de 2007. Cópia arquivada em 30 de setembro de 2007 
  21. «nasaimages.org». nasaimages.org. Consultado em 13 de abril de 2013. Arquivado do original em 11 de novembro de 2012 
  22. «The Internet Archive Will Digitize & Preserve Millions of Academic Articles with Its New Database, "Internet Archive Scholar"». Open Culture. 22 de setembro de 2020. Consultado em 2 de janeiro de 2023 
  23. «Search scholarly works preserved by the Internet Archive». Illinois State University. 10 de maio de 2021. Consultado em 2 de janeiro de 2023 
  24. «Internet Archive Scholar, a New Search Index for Scholarly Works (Research & White Papers, Conference Proceedings, Pre-prints, Reports, etc.)». University of Wisconsin-Madison. 10 de março de 2021. Consultado em 2 de janeiro de 2023 

Ligações externas

[editar | editar código-fonte]

Media relacionados com Internet Archive no Wikimedia Commons