Цифровой тёмный векЦифрово́й тёмный век — понятие, описывающее потенциальное исчезновение исторических данных в информационную эру из-за потери доступа к электронным документам. К этому сценарию могут привести отсутствие практик электронного архивирования, устаревание форматов файлов и носителей информации. Понятие «цифровой тёмный век» является отсылкой к термину «Тёмные века», часто используемому для описания Средневековья. Проблему начали обсуждать уже в конце 1990-х годов, когда сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных. Со временем был утерян доступ и к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски. Для обозначения исчезновения информации в 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений было предложено использовать термин «цифровой тёмный век». Для предотвращения наступления «тёмного века» исследователи предлагают развивать практики электронного архивирования и создавать бумажные копии цифровых данных. ХарактеристикаТрадиционно архивированием и сохранением информации занимались монахи и монастыри. Их работа обеспечила сохранность информации о наследии греческих, римских и арабских культур. С распространением книгопечатания в XV веке[1] эти обязанности постепенно перешли к библиотекарям и архивариусам частных и публичных библиотек[2], отслеживающих информацию об имущественных правах, налоговых документах, импорте и экспорте. Вплоть до начала информационной эры в конце XX столетия подавляющее большинство материалов хранилось на бумажных носителях. Несмотря на существующую опасность пожелтения страниц и потенциальную уязвимость перед огнём, водой и разрушением из-за времени, такие документы были универсально доступны[3][4]. С наступлением «информационной эры» обмен данными стал преимущественно цифровым[4]. Поэтому всё больше исследователей стали задаваться вопросом, что произойдёт в случае полного перехода на электронный формат при одновременном отсутствии физических копий, вроде печатных документов и фотографий. По их мнению, существует риск, что многие данные будут однажды утеряны и будущие поколения не смогут получить к ним доступ[2]. Уже к концу 1990-х годов стали очевидны недостатки архивирования электронных документов. Так, сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных[5]. Со временем был утерян доступ к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски[6][7]. В 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений исследователи впервые предложили использовать термин Digital Dark Age или «цифровой тёмный век» для описания этой проблемы. Словосочетание «тёмный век» является отсылкой к эпохе средних веков — периоду, который характеризовался практически полным отсутствием письменных свидетельств[4][8]. Другие эксперты называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные в наше время данные[9]. В 2015 году американский учёный и вице-президент Google Винтон Серф выступил с заявлением, что человечество движется к «цифровому тёмному веку». В своём выступлении в Национальном пресс-клубе Вашингтона[англ.] он выразил обеспокоенность общим состоянием сохранения электронных материалов и выступил за разработку практик архивирования электронной информации в соответствии с законодательством об авторском праве[10][11][12][13]. ПричиныС архивированием цифровых данных в XXI веке связаны две основные проблемы. Первая — это необходимость сохранения физического носителя в рабочем состоянии. Политические кризисы, а также природные катастрофы, вроде наводнений и землетрясений, могут помешать обслуживанию оборудования и поддержанию его в рабочем состоянии[4]. Вторая причина связана с устареванием форматов — многие из них в будущем могут оказаться нечитаемыми. Это связано с развитием программного обеспечения, появлением новых форматов файлов и окончанием поддержки старых[14][15]. ПримерыВ 1986 году BBC запустил проект BBC Domesday Project (или «Судный день») в честь 900-летия Книги Страшного суда — свода материалов, созданных в 1086 году по приказу Вильгельма Завоевателя. Король заказал подробное исследование земельных владений своего королевства и объединил полученные данные в пятитомное издание, в настоящее время хранящееся в Национальном архиве Великобритании[англ.]. В проекте BBC приняло участие более миллиона человек, включая детей примерно из 9000 школ по всей Великобритании, которых попросили задокументировать их родные города. Собранная с помощью краудсорсинга информация была объединена с профессиональными фотографиями, картами, видео-турами по историческим местам и всей переписью населения 1981 года. Впоследствии все данные были загружены на несколько лазерных дисков. Однако к началу 2000-х годов оказалось, что почти все физические носители проекта Domesday были сломаны или утеряны, а данные — безвозвратно потеряны[6]. Другим примером является программа НАСА Lunar Or, в рамках которой были сделаны подробные фотографии лунной поверхности. Все изображения были записаны на магнитные ленты, которые могли быть прочитаны только с помощью редкой модели LTO[16]. По этой причине доступ к материалам был потерян на несколько десятилетий, его возобновили только после долгосрочного анализа данных и изучения механизма работы машин, записывающих информацию на магнитные ленты[4]. Та же проблема постигла записи телеметрии «Бурана» во время его единтсвенного полета[источник не указан 244 дня]. В 1995 году правительство США чуть не потеряло доступ к части данных национальной переписи населения из-за устаревшей технологии поиска данных[5]. В 2019 году стало известно, что социальная сеть Myspace удалила всю музыку, загруженную на сайт в период с 2003 по 2015 год. Были удалены примерно 53 млн файлов. Безвозвратная потеря данных вызвала широкую общественную реакцию[17][18]. В декабре 2018 года правительство штата Мэн сообщило о потере большого количества документации, произведённой за 2005—2011 годы администрацией губернаторов Ангуса Кинга и Джона Бальдаччи. В число утерянных данных вошла бо́льшая часть электронных писем, отправленных от лица правительства штата до 2008 года[3]. В 2019 году социальная сеть Google+ прекратила свою работу, удалив профили основателей и ведущих сотрудников компании — Сундара Пичаи, Эрика Шмидта, Сергея Брина и Ларри Пейджа[19]. Это привело к потере данных о принятии некоторых ключевых решений в истории Google, например, разъяснений политики компании в отношении программы PRISM в 2013 году[20]. ПредотвращениеСоздание общих стандартовОдним из главных условий повсеместного внедрения практик электронного архивирования является развитие общих стандартов по сохранению цифровых материалов. Так, впервые опубликованный в 1997 году международный стандарт Open Archival Information System[англ.] (OAIS) определяет подходы и решения в области электронного архивирования[21]. OAIS содержит описание «архивного пакета» и «цифровых объектов». Впоследствии стандарт стал прототипом для будущих инициатив по созданию электронных репозиториев, доступу к существующим базам данных и метаданным[22]. В 2003 году OAIS утвердили в качестве международного стандарта IISO 14721:2003 «Базовая модель открытой архивной информационной системы» (Open Archival Information System) l (OAIS)[23]. Другим основополагающим стандартом является DOD 5015.2, созданный в результате серии международных коллабораций InterPARES Project[англ.], инициированных в 1994—1997 годах Университетом Британской Колумбии совместно с Министерством обороны США и Национальным управлением архивов и документации США[24][25][26][27]. Технические стратегии«Цифровой тёмный век» можно предотвратить при внедрении ряда технических стратегий по сохранению электронных документов. Одной из таких стратегий является консервация — работа с материалами в оригинальных форматах и на оригинальных носителях. В результате исходная информация доступна в первозданном формате[28]. К другим способам архивирования относят эмуляцию (воспроизведение функциональной системы для обеспечения доступа к устаревшим файлам и форматам)[21][28], инкапсуляцию (включение технического описания документа в состав самого цифрового объекта, благодаря чему уменьшается его зависимость от внешней среды)[21][29], а также миграцию (перенос электронных документов на другие носители или же в другую операционную систему, например, с магнитной ленты на компакт-диск). Последний способ является одним из самых популярных, поскольку позволяет сохранить целостность цифрового материала и способность пользователей находить и использовать информацию и не зависеть от устаревания технологий[28][30][31]. В отдельных случаях применяют археологию данных или спасение электронных объектов, которые стали недоступными из-за технологического устаревания и/или физической деградации. Однако ввиду высокой стоимости и отсутствия гарантий на восстановление использование подобного метода обычно считается вынужденной мерой[31][21]. Архивирование интернетаВ 1996 году в Сан-Франциско американский программист Брюстер Кейл основал некоммерческую организацию Архив Интернета. Деятельность «Архива» направлена на архивирование всей когда-либо опубликованной в интернете информации. Коллекция состоит из множества архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения. В 2001 году Кейл запустил отдельный сервис Wayback Machine, занимающийся сохранением веб-страниц с помощью поисковых роботов или веб-краулеров[32]. Архивные снимки отображаются в формате HTML, JavaScript и CSS[33][34]. На июль 2021 года Wayback Machine предоставлял доступ к более чем 591 млрд сохранённых веб-страниц[35][36]. К другим аналогичным проектам относят созданный Библиотекой Гарвардской школы права портал Perma.cc[37], сайт archive.today[38], а также WebCite[39]. ПроектыВ 2007 году Национальные архивы Великобритании и Microsoft объявили о начале сотрудничества в сфере архивирования данных. В рамках совместного проекта компания работала с Британской библиотекой над установкой Virtual PC — программного пакета визуализации, позволяющим пользователем запускать сразу несколько операционных систем одновременно и получать доступ к устаревшим форматом Microsoft Office. Так, только в архивах Великобритании хранится около 580 терабайт данных, записанных на старых версиях Office[40]. В 2018 году по результатам ежегодного Всемирного экономического форума в Давосе было принято решение запустить Global Centre for Cybersecurity. Деятельность центра направлена на предотвращение наступления цифрового тёмного века[41]. Над долгосрочным контролем и поддержанием электронных материалов работают службы цифрового хранения, такие как LOCKSS[англ.], HathiTrust и Portico[англ.][42]. В рамках борьбы с проблемой потери цифровых данных многие издания архивируют собственные выпуски. Так, The Economist предоставляет электронные копии каждого номера, начиная с первого выпуска в 1843 году[43], а The New York Times инициировала проект по сохранению онлайн-контента. На официальном сайте газеты размещена копия HTML-страниц с момента их первой публикации, с сохранением дизайна[44]. Одними из первых организаций, начавших разрабатывать практики по сохранению электронных писем, стали Архивы Смитсоновского института. В своих коллекциях Архивы хранят записи электронной почты, относящиеся к 1980-м годам и созданные с помощью ELM[45]. Под руководством Библиотеки Конгресса действовала архивная программа National Digital Information Infrastructure and Preservation Program[англ.], занимающаяся распространением информации о проблемах сохранения цифровых данных[46]. Архивированием научных работ занимаются такие проекты как Jstor, DSpace[47], arXiv.org, JSTOR, Public Library of Science (PLoS), BioMed Central[англ.][48]. По состоянию на октябрь 2021 года Справочник журналов открытого доступа[англ.] насчитывает более 16 900 журналов открытого доступа и более 5 млн статей[49]. КритикаОтдельные исследователи и журналисты указывают на то, что повседневные цифровые данные не нуждаются в дополнительном архивировании по причине того, что интернет и так переполнен информацией, которую люди добавляют в свои аккаунты в социальных сетях. Поэтому у следующих поколений не будет проблем с доступом к информации[50]. Другие критикуют термин за его предполагаемый «алармистский» характер. По мнению сторонников этой теории, в области сохранения данных уже был достигнут значительный прогресс и использование такой риторики только преувеличивает проблему и намеренно искажает ситуацию[51]. См. такжеПримечания
Литература
Ссылки |