Arc90labs Readability - JS-скрипт, который можно использовать для превращения любой вёб-страницы в «читабельный» вид: не только улучшает стили, но и отбрасывает «не относящийся с к делу» контент
( Read more... )
На мой вкус, тут есть несколько «излишне тонких» моментов (вроде вручную подобранных строк, идентифицирующих комментарии/заголовки и посты/статьи; или вручную же подобранных коеффициентов; плюс все эти 10 символов, 10 запятых - возможно, излишне заточены на английский; в немецком, например, слово длиннее 10 символов - достаточно частый случай, т.е. легко может оказаться пунктом меню или ещё каким техническим абзацем).
Впрочем, я Readability не пользуюсь, интересно бы, чтобы кто-то регулярно его использующий похвастался - достаточно ли часто он лажает?..
Чего-то мне это напоминает... А, дошло! В самом конце 90-х, когда "новостные ленты" уже были, а никакого RSS ещё не было (или, может быть, технически был, но не был распространён), у меня была задача эти самые ленты импортировать, разбором HTML и поиском, где тут, собственно, новости. Эвристики были примерно в этом стиле, хотя попроще. Точно помню, что запятых я не считал. ;-)
не уверен, что лыко будет в строку, но только-только обнаружил сервисы, которые переводят html в маркдаун-разметку. То есть фактически очищают html до состояния plaintxt и раскидывают по нему псевдоразметку. Мне кажется, это хорошая альтернатива "читабельному" тексту, хотя и не без недостатков. Во всяком случае букмарклет для этого сервиса уже прижился у меня в браузере.
Comments 6
(The comment has been removed)
Reply
Сравнить бы с тем, что делают поисковики :)
Reply
Впрочем, я Readability не пользуюсь, интересно бы, чтобы кто-то регулярно его использующий похвастался - достаточно ли часто он лажает?..
Reply
Reply
... Векторы прерываний были завязаны узлом ...
Reply
Reply
Leave a comment