Читая комменты к
записи в блоге Last.fm (был небольшой скандалец, по-русски можно почитать, например,
тут), наткнулся на интересную статейку по поводу устойчивости Last.fm к data mining:
http://www.eff.org/deeplinks/2009/02/last-fm-and-the-diabolical-power-of-data-mining.
А уж по ссылкам из нее вышел на крайне интересный блог:
http://33bits.org/. Вот почему он так называется:
This is a blog about my research on privacy and anonymity. The title refers to the fact that there are only 6.6 billion people in the world, so you only need 33 bits (more precisely, 32.6 bits) of information about a person to determine who they are.
This fact has two related consequences. First, a lot of traditional thinking about anonymous data relied on the fact that you can hide in a crowd that’s too big to search through. That notion completely breaks down given today’s computing power: as long as the bad guy has enough information about his target, he can simply examine every possible entry in the database and select the best match.
The second consequence is that 33 bits is not really a lot. If your hometown has 100,000 people, then knowing your hometown gives me 16 bits of entropy about you, and only 17 bits remain. But the real danger is that information about a person’s behavior, which was traditionally not considered personally identifying, can be used to cause serious privacy breaches in a variety of different contexts.
Перевод: Этот блог посвящен моей исследовательской работе в области прайвеси и анонимности. Название его отсылает к тому факту, что в мире существует всего 6.6 миллиарда человек, поэтому необходимо всего 33 бита (а более точно, 32.6 бита) информации о человеке, чтобы определить, кем он является.
Этот факт имеет два следствия. Во-первых, многие из традиционных представлений об анонимных данных опирались на тот факт, что в толпе, достаточно большой для того чтобы обыскать её всю, можно спрятаться. Эта мысль полностью опровергается, если принимать во внимание нынешнюю вычислительную мощь: если злоумышленник имеет достаточно информации о своей цели, он может просто исследовать каждую возможную запись в базе данных и выбрать наиболее подходящий результат.
Вторым следствием является то, что 33 бита - это на самом деле не так уж много. Если в Вашем родном городе 100000 жителей, тогда знание того, каков Ваш родной город, дает мне 16 бит информации о Вас, и остается только 17 бит. Но настоящая опасность заключается в том, что информация о поведении человека, которая традиционно не считалась определяющей личность, может быть использована для того, чтобы сделать серьезные бреши в прайвеси во множестве различных ситуаций.
Как-то не встречалась мне раньше эта мысль насчет 33 бит, а ведь так и есть. Добавил этот блог в RSS. Вот, пожалуй, самая интересная запись, полный гайд по деанонимизации по выложенному в общий доступ набору данных ;-) -
http://33bits.org/2008/11/12/57/. А тут теоретизирование по поводу деанонимизации на основе языкового стиля -
http://33bits.org/2009/01/15/de-anonymizing-the-internet/