Помощи пост, а то моё google-fu оказалось слабо. Сейчас тема data science очень модная, может кто встречал алгоритмы/фреймворки позволяющие преобразовать плоские списки пользовательских тегов в иерархические таксономии? Конкретно: есть 8000+ книг с тегами, хочется задать им иерархическую классификацию.
Какие хотелки:
1. Построение таксономий непосредственно из фолксономий. В принципе, подобное гуглится:
Там, правда, в лучшем случае псевдокод, а хотелось бы что-нибудь поближе к программированию. В идеале -- reproducible research или мануал.
2. Будет совсем замечательно, если алгоритмы будут не строить таксономию из тегов, а отображать теги на готовую таксономию. Что-то вроде:
Natural Sciences
Physics
Earth Sciences
Space Science
Life Science
Formal Sciences
Decision Theory
Logic
Mathematics
Statistics
Information Theory
Systems Theory
Theoretical Computer Science
Theoretical Linguistics
Humanities & Social Sciences
Anthropology
Archaeology
Arts
Geography
History
Languages and literature
...
Applied & Interdisciplinary Sciences
...
Или даже достраивать дерево. То есть, если много книжек по Theoretical Computer Science, чтобы алгоритм там достроил подразделы.
3. Также хотелось бы, чтобы одна книга могла принадлежать нескольким разделам. Например, книга о русско-немецкий войнах с тегами "German History, Military History, Russian History" попала бы в:
- Humanities & Social Sciences / History / German History
- Humanities & Social Sciences / History / Military History
- Humanities & Social Sciences / History / Russian History
Хотя, в принципе, это изыски. Если автоматически разбросать книги по таксономии, то дополнительные классификации можно вручную добавить.