Мы привыкли использовать айтишные термины, пришедшие из английского языка, не особо задумываясь о смысле слов. Некоторым терминам, которые возникли до начала 90х, повезло быть переведенными, например, database - база данных, data warehouse - хранилище данных. В 90х переводы уже приживались куда реже, кто сейчас говорит «проводник» вместо «браузер»? А позднее на переводы и вовсе забили, и стали пользоваться англицизмами. А зря. Англоязычные читают и чувствуют эти термины по-другому.
Относится это не только к технологиям, но и названиям многих компаний. Например, все знают Oracle. Но это же оракул! Согласитесь, что в названии компании появляется смысл, который прямо коррелирует с продуктом. Или DataBricks - кирпичи данных! Опять же, прямой смысл. Snowflake - снежинка, кажется что смысла нет, но так называется один из основных способов организации схемы данных для аналитики, потому что на бумаге он похож на снежинку!
Недавний пример, который заставил меня коварно улыбаться, связан с data lakes. На русский это уже не переводят, «озера данных» - не звучит. Что такое data lake? Это облачное (редких случай переведенного позднего термина) хранилище слабо структурированных данных, которые еще называют «сырыми» (raw), со средствами доступа. Идея в том, чтобы сначала сохранить все данные хоть как-нибудь, а потом разбираться, упорядочивать, строить отчеты, гонять модели машинного обучения и т.д. Традиционные базы данных тоже остаются, но теперь получают данные из data lake, после очистки, предобработки и т.д.
Казалось бы, красивая модель, на презентациях выглядит супер. Однако в реальности все оказалось не так радужно. Нет, data lakes, конечно, развиваются и используются, но отнюдь не так широко, как планировалось. И если многие компании несколько лет рассчитывали переводить свою инфраструктуру данных полностью на data lakes, то сейчас этот пыл несколько поугас. Основная проблема в том, что разбираться в свалке сырых данных и вытаскивать из нее полезные оказалось крайне трудо- и вычислительно- затратно. В результате, в data lakes данные-то есть, но использовать их сложно и неудобно.
И вот на днях мне друг выдал термин data swamps - болота данных! Именно в болота превращаются озера, в которые сливают что ни попадя и если их своевременно не чистить. Аналогия потрясающая!