Wayback Machine — разлика између измена

дигитална архива интернета
Садржај обрисан Садржај додат
Нова страница: {{курзивни наслов}} {{сређивање}} -{'''''Wayback Machine'''''}- је дигитална архива Светска мрежа|светск…
(нема разлике)

Верзија на датум 14. јул 2015. у 05:30

Wayback Machine је дигитална архива светске мреже (веба) и других информација на интернету креираних од стране Интернетске архиве (енгл. Internet Archive), непрофитне организације са седиштем у Сан Франциску (Калифорнија). Архиву су основали Брустер Кејл и Брус Џилијат, а одржава се заједно са садржајима Алекса интернета (енгл. Alexa Internet), калифорнијске подржнице Амазона која сакупља комерцијалне податке о веб-саобраћају. Сервис Wayback Machine корисницима омогућава да виде архивиране верзије веб-страница од. како су те странице изгледале на одређени датум у прошлости, што сама архива назива „тродимензионалним индексом”.

Године 1996. почело је архивирање кешираних страница веб-сајтова на веће кластере линукс-чворова Wayback Machine-а. Архива редовно посећује странице интернета сваких неколико недеља или месеци и архивира нове верзије уколико се садржај променио. Намера је да се садржај који би се иначе изгубио када год се страница битно измени или пак затвори сними/сачува и архивира. Велика визија и коначни циљ је да се архивира цели интернет.[1]

Име Wayback Machine (дословно у преводу са енглеског: „машина за путовање уназад”) је изабрано као смешна алузија на плот-уређај из анимираног цртаног филма The Rocky and Bullwinkle Show. У једном од саставних делова тог анимираног цртаног филма, Peabody's Improbable History, главни ликови Mr. Peabody и Sherman рутински су користили времеплов по имену WABAC machine (што се изговара исто као и wayback) како би сведочили, (не)учествовали или изменили одређене познате догађаје из прошлости.[2][3]

Почеци, раст и капацитет/могућности складиштења

Брустер Кејл и Брус Џилијат су 1996. године развили софтвер за индексирање и преузимање свих јавно доступних страница веба.

In 1996 Brewster Kahle, with Bruce Gilliat, developed software to crawl and download all publicly accessible World Wide Web pages, the Gopher hierarchy, the Netnews (Usenet) bulletin board system, and downloadable software.[4] The information collected by these "crawlers" does not include all the information available on the Internet, since much of the data is restricted by the publisher or stored in databases that are not accessible. These "crawlers" also respect the robots exclusion standard for websites whose owners opt for them not to appear in search results or be cached. To overcome inconsistencies in partially cached websites, Archive-It.org was developed in 2005 by the Internet Archive as a means of allowing institutions and content creators to voluntarily harvest and preserve collections of digital content, and create digital archives.

Information had been kept on digital tape for five years, with Kahle occasionally allowing researchers and scientists to tap into the clunky database.[5] When the archive reached its fifth anniversary, it was unveiled and opened to the public in a ceremony at the University of California-Berkeley.

Snapshots usually become available more than 6 months after they are archived or in some cases even later, 24 months or longer. The frequency of snapshots is variable, so not all tracked web site updates are recorded. There are sometimes intervals of several weeks or years between snapshots.

After August 2008 sites had to be listed on the Open Directory in order to be included.[6] According to Jeff Kaplan of the Internet Archive in November 2010, other sites were still being archived,[7] but more recent captures would only become visible after the next major indexing, an infrequent operation.

Ажурирано: 2009. the Wayback Machine contained approximately three petabytes of data and was growing at a rate of 100 terabytes each month;[8] the growth rate reported in 2003 was 12 terabytes/month. The data is stored on PetaBox rack systems manufactured by Capricorn Technologies.[9]

In 2009 the Internet Archive migrated its customized storage architecture to Sun Open Storage, and hosts a new data center in a Sun Modular Datacenter on Sun Microsystems' California campus.[10]

In 2011 a new, improved version of the Wayback Machine, with an updated interface and fresher index of archived content, was made available for public testing.[11]

In March 2011 it was said on the Wayback Machine forum that "The Beta of the new Wayback Machine has a more complete and up-to-date index of all crawled materials into 2010, and will continue to be updated regularly. The index driving the classic Wayback Machine only has a little bit of material past 2008, and no further index updates are planned, as it will be phased out this year."[12]

In January 2013 the company announced a ground-breaking milestone of 240 billion URLs.[13]

In October 2013 the company announced the "Save a Page" feature[14] which allows any Internet user to archive the contents of a URL. This became a threat of abuse by the service for hosting malicious binaries.[15][16]

As of December 2014 the Wayback Machine contained almost nine petabytes of data and was growing at a rate of about 20 terabytes each week.[17]

Between October 2013 and March 2015 the website's global Alexa rank changed from 162[18] to 208.[19]

Wayback Machine page growth
Year 2005 2006–08 2009–12 2013 2014 2015
Number of pages archived
(billion)
40[20] 85[21][22][23] 150[24][25][26][27] 373[28] 400[29] 452[30]

Референце

  1. ^ „Archive.org or Wayback Machine”. http://cachedpages.net/. Приступљено 2. 12. 2014.  Спољашња веза у |website= (помоћ)
  2. ^ Green, Heather (28. 2. 2002). „A Library as Big as the World”. BusinessWeek. Приступљено 29. 7. 2007. 
  3. ^ Tong, Judy (8. 9. 2002). „RESPONSIBLE PARTY — BREWSTER KAHLE; A Library Of the Web, On the Web”. New York Times. Приступљено 15. 8. 2011. 
  4. ^ Kahle, Brewster. „Archiving the Internet”. Scientific American – March 1997 Issue. Приступљено 19. 8. 2011. 
  5. ^ Cook, John (1. 11. 2001). „Web site takes you way back in Internet history”. Seattle Post-Intelligencer. Приступљено 15. 8. 2011. 
  6. ^ „Internet Archive FAQ”. Archive.org. Приступљено 2014-04-16. 
  7. ^ Archive.org forum thread with response by Jeff Kaplan, last update November 07, 2010
  8. ^ Mearian, Lucas (19. 3. 2009). „Internet Archive to unveil massive Wayback Machine data center”. Computerworld.com. Приступљено 2009-03-22. 
  9. ^ Kanellos, Michael (29. 7. 2005). „Big storage on the cheap”. CNET News.com. Архивирано из оригинала 2007-04-03. г. Приступљено 2007-07-29. 
  10. ^ „Internet Archive and Sun Microsystems Create Living History of the Internet”. Sun Microsystems. 25. 3. 2009. Приступљено 2009-03-27. 
  11. ^ „Updated Wayback Machine in Beta Testing”. Archive.org. Приступљено 19. 8. 2011. 
  12. ^ „Beta Wayback Machine, in forum”. Archive.org. Приступљено 2014-04-16. 
  13. ^ „Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs”. Blog.archive.org. 2013-01-09. Приступљено 2014-04-16. 
  14. ^ Rossi, Alexis (2013-10-25). „Fixing Broken Links on the Internet”. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. Архивирано из оригинала 2014-11-07. г. Приступљено 2015-03-25. „We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future. 
  15. ^ The VirusTotal Team (2015-03-25). „207.241.226.190 IP address information”. virustotal.com. Dublin 2, Ireland: VirusTotal. Архивирано из оригинала 2014-07-14. г. Приступљено 2015-03-25. „2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe 
  16. ^ Advisory provided by Google (2015-03-25). „Safe Browsing Diagnostic page for archive.org”. google.com/safebrowsing. Mountain View, CA, US: Google. Приступљено 2015-03-25. „2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s). 
  17. ^ „Internet Archive Frequently Asked Questions”. Приступљено 2015-01-17. 
  18. ^ „Archive.org Site Info”. Alexa Internet. Архивирано из оригинала 2013-10-28. г. Приступљено 2013-10-29. 
  19. ^ „Archive.org Site Overview”. Alexa Internet. Архивирано из оригинала 2015-04-09. г. Приступљено 2015-04-09. 
  20. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2005-12-31. г. Приступљено 2015-03-25. 
  21. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2006-12-28. г. Приступљено 2015-03-25. 
  22. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2007-12-28. г. Приступљено 2015-03-25. 
  23. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2008-12-24. г. Приступљено 2015-03-25. 
  24. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2009-12-20. г. Приступљено 2015-03-25. 
  25. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2010-12-30. г. Приступљено 2015-03-25. 
  26. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2011-08-30. г. Приступљено 2015-03-25. 
  27. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2012-12-31. г. Приступљено 2015-03-25. 
  28. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2013-12-31. г. Приступљено 2015-03-25. 
  29. ^ michelle (2014-05-09). „Wayback Machine Hits 400,000,000,000!”. Internet Archive. Архивирано из оригинала 2014-08-26. г. Приступљено 2015-03-25. 
  30. ^ „Internet Archive Wayback Machine”. Internet Archive. Архивирано из оригинала 2015-02-13. г. Приступљено 2015-03-25.