Arquivo da Internet | |
---|---|
Cara | ONG |
Fundação | 1996 |
Sede | ![]() |
Área de ação | Preservação digital |
Presidente | Brewster Kahle |
Lema | acesso universal a todo o conhecimento |
Local na rede Internet | |
Site do Arquivo da Internet | |
---|---|
URL | archive.org/ |
Tipo de site | Livraria digital |
Língua | Inglês |
Cadastro | opcional |
Lucro | Não |
Criado por | Brewster Kahle |
Lançar | Maio de 1996 |
Estado atual | ativo |
Slogan | acesso universal a todo o conhecimento |


O Internet Archive é uma biblioteca digital sem fins lucrativos que tem o propósito declarado de possibilitar o "acesso universal ao conhecimento" [1] [2] . Oferece um espaço digital permanente para acesso a diversos tipos de recursos: por exemplo, sites, áudio, imagens em movimento (vídeos) e livros. O Internet Archive foi fundado por Brewster Kahle em 1996 e faz parte do International Internet Preservation Consortium (IIPC ). [3] Além de sua função primária de arquivamento, o Internet Archive é uma organização que luta por uma Internet livre e aberta e é uma associação sem fins lucrativosoficialmente reconhecido nos Estados Unidos da América .
Os escritórios administrativos estão localizados em San Francisco , enquanto os centros de processamento de dados estão localizados em San Francisco, Redwood City e Mountain View , Califórnia . A coleção digital mais massiva da biblioteca é o arquivo da web, uma espécie de coleção de "imagens estáticas" da World Wide Web catalogadas por data de aquisição. Para garantir a estabilidade e segurança dos dados arquivados, todo o acervo possui um espelho nos servidores da Bibliotheca Alexandrina em Alexandria, Egito . O arquivo permite ao público fazer upload e download de material digital de e para seus servidores sem nenhum custo.
Também fornece acesso a um dos maiores projetos de arquivamento de livros digitais existentes, faz parte da American Library Association e é oficialmente reconhecida pelo estado da Califórnia como uma biblioteca pública. [4] A empresa conta com 200 funcionários, muitos dos quais se dedicam à digitalização de volumes de papel em centros especializados. O escritório principal de São Francisco tem trinta funcionários. O Internet Archive tem um orçamento anual de aproximadamente US$ 10 milhões, em grande parte derivado de uma variedade de fontes: receita de serviços de rastreamento da web , parcerias, subsídios, doações e a Fundação Kahle-Austin. [5]
De acordo com o site Internet Archive, "muitas sociedades dão importância à preservação de artefatos relacionados ao seu patrimônio cultural. Sem esses artefatos a civilização não tem memória e não tem como aprender com seus sucessos e fracassos. Nossa cultura agora sempre produz. mais produtos em formato digital. A missão do Internet Archive é ajudar a preservar esses artefatos e criar uma biblioteca digital na Internet para pesquisadores, historiadores e acadêmicos."
História
Brewster Kahle fundou o Internet Archive em 1996, na mesma época em que fundou a empresa Alexa Internet , uma empresa envolvida em serviços de rastreamento na web . O Internet Archive começou a arquivar a World Wide Web desde 1996, mas a coleção não estava acessível até 2001 , quando o Wayback Machine foi desenvolvido. Em 1999, o Internet Archive expandiu-se adicionando outras coleções, incluindo o Prelinger Archive . O Internet Archive atualmente inclui, entre outros, texto, áudio, imagens em movimento e software. Hospeda vários outros projetos, incluindo um Arquivo de Imagens da NASA , Serviço de Indexação de Arquivos e Biblioteca Aberta, um catálogo de volumes que podem ser editados usando software semelhante a wiki.
Em 25 de março de 2020, após a pandemia do COVID-19 , o Internet Archive lançou a Biblioteca Nacional de Emergência, uma iniciativa que permite o acesso gratuito em texto completo a todo o acervo digital de mais de 1 milhão de títulos do catálogo. [6] [7]
Projetos
Máquina de retorno
Wayback Machine é a interface da web usada pelo Internet Archive para extrair dados em sites de arquivos. Os sites arquivados representam uma espécie de "imagens estáticas" coletadas quando as páginas são adquiridas por meio do software de indexação do Internet Archive. O nome "Wayback Machine" vem do termo " WABAC Machine " usado em uma das histórias da série animada Rocky and Bullwinkle . [8] O serviço, graças ao Alexa spider , memoriza as mudanças e evoluções dos vários sites ao longo do tempo . Para sites menores não tem cache frequente ,
É um serviço útil nos seguintes casos:
- estudo da evolução dos websites;
- recuperação de páginas e sites perdidos;
- busca de evidências uma vez publicadas e então excluídas.
O serviço permite acessar versões arquivadas de páginas da web do passado, uma espécie de "arquivo tridimensional" nas palavras do Internet Archive. Milhões de sites com seus respectivos dados (imagens, texto, documentos vinculados, etc.) são armazenados em um banco de dados gigante . Nem todos os sites estão disponíveis devido à escolha de muitos proprietários de sites de excluir seus sites da indexação. Além disso, como acontece com todos os sites baseados em dados de rastreadores da Web , grandes áreas da Web estão ausentes por vários motivos técnicos. Vários problemas jurídicos relativos ao arquivamento e cobertura ou não de sites foram finalmente encontrados ao longo dos anos, embora não sejam resultado de ações deliberadas. [9]
O uso do termo "Wayback Machine" no contexto do Internet Archive tornou-se tão comum que "Wayback Machine" e "Internet Archive" tornaram-se quase sinônimos na cultura de massa ; por exemplo, na série de televisão Law & Order: Criminal Intent (no episódio "Legacy", que foi ao ar pela primeira vez em 3 de agosto de 2008, intitulado Amor virtual na contraparte italiana), um dos protagonistas do episódio usa o " Wayback Machine "para encontrar uma cópia arquivada de um site. Os "instantâneos" dos sites arquivados durante as várias passagens do rastreador tornam-se acessíveis ao público geralmente após 6 a 18 meses.
Exemplos de sites arquivados pelo Internet Archive e visualizados pelo Wayback Machine:
- Internet Archive ( arquivamento recursivo )
- Wikipedia , em web.archive.org .
- Google , em web.archive.org .
O Internet Archive usa o protocolo Robots Exclusion Standard (através do arquivo robots.txt ) para a exclusão voluntária de sites de seu banco de dados. O Internet Archive respeita as diretivas do arquivo robots.txt, certificando-se de que seus bots não indexem as páginas. Por esse motivo, o Internet Archive tornou indisponíveis vários sites que são completamente inacessíveis por meio do Wayback Machine. No caso de sites bloqueados, apenas o arquivo robots.txt é armazenado .
O Internet Archive aplica as regras do robots.txt retroativamente: se um site bloquear o spider do Internet Archive por meio do arquivo robots.txt, todas as páginas já arquivadas pelo domínio ficarão indisponíveis. Além disso, o mesmo comportamento é reservado para todos os sites que o solicitem explicitamente: por esse motivo, toda vez que o proprietário de um site solicita sua exclusão do índice, ele concorda com a solicitação [10] , não sendo "Internet Archive interessados em preservar ou oferecer acesso a sites ou outros documentos na Internet de propriedade de pessoas que não desejam seus materiais em nosso acervo." [11]
Por exemplo, o endereço https://web.archive.org/*/https://www.ubuntu-it.org , mostra as cópias pesquisáveis da página
- https://www.ubuntu-it.org ,
- dividido de acordo com a data de salvamento no Internet Archive.
Biblioteca aberta
A Open Library , cujos fundadores também incluem o ativista digital Aaron Swartz [12] , é uma biblioteca digital criada com o objetivo de coletar fichas para cada livro já publicado e catalogá-los em um único banco de dados; uma espécie de versão de código aberto do WorldCat , criada em contraste com o projeto de digitalização do Google Books [13] (em italiano, Google Books ). O projeto nasceu em 2007 e inclui alguns milhões de fichas de catálogo e livros digitalizados em domínio público que são totalmente acessíveis e descarregáveis. [14] Open Library é um projeto baseado em software livre e de código aberto, o código-fonte é totalmente acessível a partir do site de referência. A partir de junho de 2010, a Open Library também oferece um serviço de empréstimo de e- books realizado em colaboração com o distribuidor de conteúdo digital norte-americano OverDrive e bibliotecas norte-americanas [15] .
Arquivar
Desenvolvido em 2006, o Archive-It é um serviço que permite a instituições e entidades individuais construir e preservar coleções de material digital. [16] Por meio de uma aplicação web, os assinantes do serviço podem coletar, catalogar, indexar e, no decorrer de 24 horas, acessar integralmente o arquivo. As coleções são hospedadas em servidores de Internet Archive e acessíveis ao público por meio de pesquisas de texto completo . Todo o material digital é armazenado em duplicatas (uma primária e uma de backup ), é indexado periodicamente no arquivo geral do Internet Archive e uma cópia dos dados pode ser enviada aos assinantes mediante solicitação. A partir de 2009 Arquivo-Tem 125 instituições parceirasem 42 estados americanos e 11 países para um total de 1,5 bilhão de URLs e 963 coleções públicas. As instituições que se inscreveram no serviço Archive-It são principalmente bibliotecas universitárias e universitárias , arquivos estaduais, instituições federais, museus e organizações culturais, incluindo a Electronic Literature Organization , os North Carolina State Archives , a Texas State Library and Archives Commission , Stanford University , a National Library of Australia , o Research Libraries Group (RLG) e muitos outros.
Imagens da NASA
O projeto NASA Images foi criado graças a um Space Act Agreement entre o Internet Archive e a NASA para tornar os arquivos de imagens, vídeos e áudio produzidos pela agência ao longo dos anos acessíveis ao público por meio de um único arquivo totalmente indexado e utilizável por meio de pesquisas. O site foi lançado em julho de 2008 e chegou a conter mais de 100.000 arquivos.
Coleções de recursos multimídia
Além dos arquivos da web, o Internet Archive mantém grandes coleções de ativos multimídia digitais reconhecidos, por quem os carregou no site, em domínio público nos Estados Unidos ou distribuídos com uma licença que permite redistribuição gratuita, como licenças Creative Commons . . Os ativos são classificados de acordo com o tipo de mídia (imagens em movimento, áudio, texto) e em outras subclassificações de acordo com diversos critérios.
coleção de filmes
A coleção de imagens em movimento do Internet Archive inclui: cinejornais; desenhos animados clássicos; propaganda de guerra; o Arquivo Prelinger , um arquivo especial que contém material considerado "efêmero", como filmes patrocinados por empresas e organizações, filmes educativos e filmes caseiros, anúncios e outros materiais cujos direitos autorais expiraram. As coleções de recursos digitais são muitas e variam por tópico e fonte de recuperação; a coleção de brickfilm , por exemplo, contém vários filmes em stop-motion filmados com peças de Lego; outra coleção diz respeito às eleições presidenciais de 2004 nos EUA e à campanha eleitoral relacionada. A coleçãoO Independent News inclui uma série de coleções, incluindo a do concurso World At War do Internet Archive de 2001 , para o qual os concorrentes criaram curtas-metragens para demonstrar a importância do acesso à informação e à história. O arquivo referente ao atentado às Torres Gêmeas de 11 de setembro de 2001 contém material de arquivo produzido pelas principais redes de televisão mundiais sobre o evento e transmitido ao vivo naquele dia.
Filme
Nas coleções de filmes também existem versões originais de filmes famosos, incluindo:
- O clube dos 39
- O encouraçado Potemkin
- O nascimento de uma nação
- Lírio quebrado
- O século do eu
- Charada
- Revolta da Colômbia
- Mais duas horas
- No aperto dos trilhos
- O Gabinete do Doutor Caligari
- O que fazer e o que não fazer no namoro
- Desvio
- Pato e Capa
- Fuja de Sobibor
- Isabel da Inglaterra
- Como eu ganhei a guerra
- Rapacidade
- Cânhamo para a vitória
- Intolerância
- O pirralho
- Viagem à Lua
- Lábios Mentirosos [ claro ]
- M - O monstro de Düsseldorf
- O homem que Sabia Demais
- Manos: As Mãos do Destino
- Consentimento de Fabricação: Noam Chomsky e a Mídia
- Noite dos Mortos-Vivos
- Nosferatu the Vampire (não é de domínio público fora dos Estados Unidos)
- Plano 9 do espaço sideral
- O Poder dos Pesadelos (não é de domínio público)
- Amarre Shan Gong Zhu
- Loucura do Reefer
- loucura sexual
- Lady Lou
- O triunfo da vontade
- Todos os sete episódios de Why We Fight
Coleção de áudio
A coleção de áudio inclui músicas, livros de áudio, notícias, transmissões de rádio antigas e uma grande variedade de outros arquivos de áudio. A coleção Live Music Archive inclui mais de 50.000 gravações de concertos de artistas independentes e estabelecidos e conjuntos musicais que têm regulamentos frouxos na gravação de seus shows, como o Grateful Dead e o Smashing Pumpkins .
Coleção de textos
A coleção inclui textos de livros digitalizados de várias bibliotecas ao redor do mundo, bem como muitas coleções especiais. O Internet Archive possui 23 centros de digitalização em cinco países, digitalizando aproximadamente 1.000 livros por dia, financiados por bibliotecas e fundações. [17] Em novembro de 2008, quando havia cerca de 1 milhão de textos, toda a coleção ocupava cerca de 0,5 petabytes , incluindo imagens brutas, arquivos PDF, OCR e dados brutos. [18]
Entre 2006 e 2008 , a Microsoft Corporation colabora com o Internet Archive por meio do projeto Live Search Books , digitalizando mais de 300.000 livros que foram adicionados à coleção, além de suporte financeiro e equipamentos de digitalização. Em 23 de maio de 2008, a Microsoft anunciou que encerraria o projeto Live Book Search e a digitalização de novos livros. [19] A Microsoft disponibilizou os livros digitalizados sem restrições contratuais e doou seus equipamentos de digitalização para seu ex- parceiro .
Em outubro de 2007, os usuários do Internet Archive começaram a fazer upload de livros de domínio público do Google Livros . [20] Desde janeiro de 2010, 900.000 livros digitalizados pelo Google foram coletados , representando mais da metade do total de livros disponíveis no archive.org. Os livros são idênticos às cópias encontradas no Google e estão disponíveis para uso e download ilimitados , como todos os materiais do Internet Archive.
O Internet Archive é membro da Open Book Alliance , uma organização que está entre as mais críticas do acordo entre a American Publishers Association e o Google para a digitalização de livros.
Em 2016, também após o escândalo da eleição presidencial , o Internet Archive iniciou uma colaboração com versões da Wikipedia em vários idiomas, desenvolvendo um programa para substituir automaticamente links quebrados em modelos de citação. Em sua substituição, o Internet Archive Bot [21] insere a URL da cópia digital da fonte no Internet Archive, com uma visualização de duas páginas para contextualizar a citação. [22]
Observação
- ^ Perguntas frequentes do Internet Archive Arquivado em 15 de abril de 2013 no Wikiwix .
- ^ Internet Archive : Acesso universal a todo o conhecimento arquivado em 13 de outubro de 2013 no Internet Archive .
- ↑ Membros arquivados em 13 de junho de 2010 no Internet Archive . (Consórcio Internacional de Preservação da Internet)
- ^ " Arquivo da Internet oficialmente uma biblioteca" Arquivado em 1º de setembro de 2016 no Wikiwix., 2 de maio de 2007 .
- ^ CabinetMagazine.org Arquivado em 19 de março de 2013 no Internet Archive .
- ↑ Palmer Haasch, The Internet Archive lançou uma biblioteca pública digitalizada sem espera de mais de 1 milhão de livros que normalmente só estão disponíveis para escolas e bibliotecas , su insider.com .
- ^ Anunciando a Biblioteca Nacional de Emergência , em archive.org . Recuperado em 26 de março de 2020 ( arquivado em 26 de março de 2020) .
- ^ Heather Green , _Uma biblioteca tão grande quanto o mundo: Brewster Kahle tem a tecnologia para reunir o arquivo definitivo do conhecimento humano. O que o impede? Leis de direitos autorais restritivas, Business Week Online, 28 de fevereiro de 2002. Recuperado em 25 de junho de 2007 ( arquivado em 1º de junho de 2002) .
- ^ Thelwall , M. & Vaughan, L. (2004). Uma história justa da Web? Examinando o equilíbrio do país no Internet Archive, Library & Information Science Research , 26 (2), 162-176.
- ^ Alguns sites não estão disponíveis devido a Robots.txt ou outras exclusões Arquivado em 15 de abril de 2011 no Internet Archive ..
- ^ Como posso remover as páginas do meu site do Wayback Machine ? Arquivado em 10 de outubro de 2013 no Internet Archive .
- ^ Aaron Swartz The Open Library Project , em openlibrary.org . Recuperado em 2 de maio de 2019 ( arquivado em 27 de junho de 2015) .
- ^ António Gonçalves , _Progresso das reivindicações do arquivo da Internet contra a iniciativa da Biblioteca do Google, InformationWeek, 20 de dezembro de 2006. Recuperado em 5 de janeiro de 2007 ( arquivado em 14 de outubro de 2007) .
- ^ ( PT ) A Biblioteca Aberta faz sua estreia online, Chronicle of Higher Education, The Wired Campus, 19 de julho de 2007. Recuperado em 26 de janeiro de 2013 (arquivado do original em 30 de setembro de 2007) .
- ^ Pequenos Movimentos: A Biblioteca Aberta Integra o Empréstimo Digital , em blog.openlibrary.org . Recuperado em 26 de janeiro de 2013 .
- ↑ Stefanie Olsen, Preserving the Web one group at a time , CNet News.com, 1 de maio de 2006.
- ↑ Books Scanning to be Publicly Funded Archived 24 de setembro de 2009 no Internet Archive ., Announcement by Brewster Khale, 23 de maio de 2008.
- ^ " Acesso em massa ao OCR para 1 milhão de livros" Arquivado em 6 de dezembro de 2008 no Internet Archive ., Via Open Library Blog, por raj, 24 de novembro de 2008.
- ^ " Pesquisa de livros terminando" Arquivado em 20 de agosto de 2008 no Internet Archive ., Live Search Blog. Anúncio oficial da Microsoft. Último acesso em 23 de maio de 2008.
- ↑ Google Books no Internet Archive Arquivado em 3 de outubro de 2013 no Internet Archive .
- ^ Você também pode consultar a discussão IABot blue linking to Internet archive books de 14 de novembro de 2019, presente na versão em inglês da Wikipedia
- ↑ O arquivo da Internet está tornando a Wikipedia mais confiável , em wired.com , 11 de março de 2019. Recuperado em 24 de novembro de 2019 ( arquivado em 24 de novembro de 2019) .
Itens relacionados
- Projeto Gutenberg
- Arquivamento da Web
- Preservação digital
- PANDORA
- WebCite
- Rastreador da Web
- Web 3.0
- Hathi Trust
Outros projetos
Wikimedia Commons contém imagens ou outros arquivos no Internet Archive
links externos
- ( PT ) Site oficial , em archive.org .
- ( PT ) Blog oficial , em blog.archive.org .
- Arquivo da Internet (canal), no YouTube .
- ( PT ) Internet Archive , no GitHub .
- ( PT ) Internet Archive , no MusicBrainz , Fundação MetaBrainz.
- Brewster Kahle, Archiving the Internet , in Scientific American , março de 1997 (arquivado do original em 11 de outubro de 1997) .
- Leonard Berberi, The Ark of Memory , no Corriere della Sera (arquivado do original em 22 de julho de 2014) .
- ( PT ) Guia para consulta de recursos no Internet Archive , no WikiHow .
- Outros Projetos e Recursos
- ( PT ) Serviço de captura e arquivo de páginas na Internet , em archive.is .
- ( PT ) Serviço de arquivo e pesquisa avançada para publicações científicas , em datacite.org .
- ( PT ) Relatório do Harvard Library Innovation Lab , em perma.cc .
- ( PT ) Serviço de arquivo de material científico e educativo em webcitation.org .
- ( PT ) US NDIIPP e Content Negotiation , em mementoweb.org . (serviço de pesquisa avançada)
- ( PT ) 11 Melhores Alternativas de Wayback Machine em 2017 para Verificar Histórico de Sites , em pingzic.net . Recuperado em 13 de maio de 2018 (arquivado do original em 13 de maio de 2018) .
Controle de autoridade | VIAF ( EN ) 123343900 ISNI ( EN ) 0000 0004 9260 2112 LCCN ( EN ) n2001062537 GND ( DE ) 1222513323 BNF ( FR ) cb170635025 ( data ) J9U ( EN , HE ) 987007594621105171 ( topic ) WorldCat Identities ( EN ) lccn-n2001062537 |
---|