Как Big Data пришла в маленькие организации (Не могу привыкнуть 29): _cmeptb

_cmeptb_

Как Big Data пришла в маленькие организации (Не могу привыкнуть 29)

Apr 07, 2015 00:12

Небольшое вступление.
Замечено, что история развивается по спирали.
История компьютерного железа - не исключение.
Сначала в мире господствовали большие мэйнфреймы, а самый простой персональный компьютер был размером с холодильник и скоростью как счёты. Потом размеры последних существенно уменьшились, а вычислительные возможности сильно возросли став сравнимы с мэйнфреймами. И в середине девяностых сторонники персональных компьютеров убедили средства массовой информации, что основой глобальной ИТ-инфраструктуры (бэк-офисов, которые обеспечивают работу банков, авиалиний, заводов и пр.) могут стать настольные компьютеры. Это в общем и целом было так почти полтора десятилетия.
Конечно. Со временем стали появляться сервисы типа YouTub'а, вконтактика и прочих дропбоксов, которые очевидно не могли быть основаны на обычных ПК. Но вот на уровне обычных организаций - это до сих пор оставалось так.
И я вынужден констатировать, что это время закончилось.
Усаживайтесь по удобнее мои маленькие девиантные друзья. Я расскажу вам.
Итак.
Ничего не предвещало.
От одного небольшого заказчика поступило задание сгенерить ему тестовые данные в виде разного размера csv файлов для тестирования небольшого кластерочка по поиску очередного лекарства (например от рака).
Список требований был составлен весьма длинный, поэтому я бодро принялся за дело.
Работая на виртуалке в сети заказчика я бодро сгенерировал файлы размером до 10Гб после чего место на виртуалке закончилось.
Следующий файл, который предстояло сгенерить - был размеров 2Тб.
Я запросил в службе поддержки увеличение диска виртуалки на оный размер и получил закономерный отказ - у них просто столько не было.
Не беда, подумал я. Перейду на рабочий комп.
Однако.
Выяснилось, что на рабочем компе диски по 0.5Тб. А новый винчестер специально для меня купят только через неделю. Зато есть сетевое файлохранилище на 4.5Тб из которых 3 было свободно.
Я запустил генерацию файла на сетевой диск.
2Тб генерились ровно неделю, причем в середине этого процесса упала сеть конторы и мне пришлось по логам восстанавливать точку с которой прервался процесс, что бы не начинать заново.
К моменту как все завершилось - приехал диск. После чего я 36(!) часов скачивал файл из сети на свой комп (100мегабит, между прочим).
Ещё сутки ушли на то, что бы положить файл в архив (и это на i7 3ГГц на минуточку) и забросить его заказчику.
При этом выяснилось, что WinRar, несмотря на передовую поддержку словарей до 1Гб, написан весьма криво, его GUI версия очевидно не разделяет GUI поток и поток который сжимает собственно файлы, из-за чего - всё дичайше тормозит, поэтому пользоваться надо консольной версией которая работает в два раза быстрее и не тормозит комп.
Следующий файл в списке должен был быть размером 4Тб.
Моё появление у админов вызвало веселье, однако из закромов родины был извлечён внешний SATA девайс позволяющий объединить два двух терабайтных диска в один логический. Таким образом место я получил.
Беда подкралась откуда не ждали - выяснилось, что Microsoft PowerSell, которую я использовал для генерации - весьма прожорлива при работе со строками - использует в 10 раз больше памяти чем объём оперируемых данных. Поэтому когда я стал лопатить гигабайтам - тут же упёрся в то, что 8Гб набортной памяти быстро кончились и PowerShell уходил в астрал навсегда.
Пришлось просить добавить мне памяти. Теперь у моей рабочей машины 16Гб мозгов не считая 7Тб дискового пространства.
Проблема в том, что последний файл должен быть размером в 20Тб.
И вот уже его - мне сгенерить не получится.
Этот барьер за разумные сроки и разумные деньги взять уже не удастся.
Остаётся констатировать, что день, когда обычный ПК не сможет решить задачу которую может решить мэйнфрейм в маленькой организации - настал.
Новая (старая) эпоха наступила.

http://vk.com/note1267995_11719651