Архивация государства (консервированное государство)

Введение

К сожалению, в России архивация официальных веб-ресурсов, социальных сетей и иных материалов полностью отсутствует. У нас нет требований к обязательному долгосрочному сохранению информации и не остается другого способа сохранять информацию кроме как делать это самостоятельно.
Мы ведем регулярную архивацию официальных материалов, по следующим направлениям:

  • официальных аккаунты в социальных сетях;
  • официальные сайты органов власти, официальных лиц, политических партий;
  • исторические данные — ключевые исторические документы и, особенно, базы данных;

Подпроекты

Архивация официальных аккаунтов в социальных сетях

Списки социальных аккаунтов

На сегодняшний день собираются данные 52 официальных Twitter аккаунтов и публикуются здесь:

Старые версии официальных сайтов

Многие из государственных сайтов регулярно уничтожаются органами власти при закрытии проекта по окончанию финансирования, при замене движка сайта или при очередной реформе органов власти. Мы архивируем старые версии сайтов до их уничтожения и оставляем в виде архивов Httrack для общего доступа.

Совокупный объём архивов 88 сайтов составляет 22 гигабайта в запакованном виде и до 300 гигабайт в распакованном. Сейчас решается вопрос по тому как сделать все архивы доступными для широкой публики и не чтобы выходили не слишком большие расходы на трафик.

Список собранных архивов:

https://docs.google.com/spreadsheet/ccc?key=0AphaFpvgzsyhdDJlczBoc095QmdLV25pY2NtSFRDaFE&usp=sharing

Если какие-то из этих архивов срочно Вам нужны — напишите на ibegtin@infoculture.ru и вам будет переслана ссылка по которой его можно скачать.

Архивация специализированных ресурсов

Ряд ресурсов неудобных для архивации как веб-сайтов или же теряющих при этом удобство использования мы архивируем преобразуя их сразу же в базы данных.

Таким образом уже архивированы:

  • Блог Дмитрия Медведева (blog.kremlin.ru) - http://hubofdata.ru/dataset/blog-medvedev все данные собраны в базу данных пригодную для анализа и обработки;
  • База голосований депутатов Государственной Думы - http://hubofdata.ru/dataset/duma-votes все данные собраны в базу данных пригодную для анализа и обработки.

Исторические данные

Сейчас мы собираем такие данные как:

  • бюджеты и статистические справочники СССР, РСФСР, союзных республик;
  • любые реестры, телефонные справочники и иные исторические базы данных в бумажном виде ;
  • любые исторические данные в табличной форме (пригодные для преобразоваия в открытые данные).

В ближайших планах есть запуск платформы сбора цифровых материалов для накопленных документов. Далее, документы будут последовательно преобразовываться в базы данных и над ними будет запущено API.

TODO: Планы развития

Архивация социальных аккаунтов:

  • форма для отправки аккаунтов социальных сетей для архивации;
  • организация архивации аккаунтов Youtube (завершено за исключением архивации видео);
  • организация архивации аккаунтов Facebook;
  • организация архивации аккаунтов Vkontakte;
  • организация архивации аккаунтов Slideshare;
  • организация архивации аккаунтов Instagram и других.
  • специальный сайт и API для доступа к собранным данным.

 Архивация веб-сайтов:

  • переход на Heritrix или аналогичные краулеры создающие WARC файлы;
  • создание интерфейсов просмотра архивных копий онлайн;
  • преобразование накопленных архивов HTtrack в формат WARC;
  • регулярное обновление создаваемых архивов госсайтов;
  • архивация не только старых, но и обновляемых официальных сайтов.

 Специализированная архивация:

  • сделать форму отправки ресурсов наиболее важных для архивации;
  • сделать специализированные API для каждого из специализированных архивов.

Поддержка  и участие

Архивация государства — это некоммерческий проект.

Вы можете помочь ему по мере Ваших возможностей:

  • написать нам об аккаунтах социальных сетей которые пока не включены в архивацию;
  • написать нам о государственных сайтах находящихся на «гране вымирания» (ведомство ликвидировали или сайт заменили);
  • помочь с разработкой скриптов для архивации аккаунтов социальных сетей которые мы пока не охватываем — Facebook, Vkontakte, Instagram, Foursquare, Youtube и других;
  • если Вы журналист — написать статью об этом проекте;
  • если Вы разбираетесь в архивном деле и движках которые там используются — помочь с организацией цифровых коллекций — советом, делом, программированием.

И, конечно, поддержав проект небольшим взносом через Яндекс Деньги:

 

Похожие проекты

  • CyberCemeteryhttp://govinfo.library.unt.edu/default.htm. Архивы государственных сайтов расформированных ведомств США. Поддерживается университетом Северного Техаса.
  • Pandora http://pandora.nla.gov.au/ Австралийский веб архив

Контакты

Проект разрабатывается под эгидой НП «Информационная культура»

Автор проекта: Иван Бегтин, директор НП «Информационная культура» (http://ivan.begtin.name)

Вопросы можно направлять по адресу - ibegtin@infoculture.ru или infoculture@infoculture.ru

 

Яндекс.Метрика