Нашёл подробностей - главное, имхо, что проценты по вебсайтам, а не страницам, весь жж у них это та же самая единичка, что и какой-нибудь спам-сайт из десятого миллиона
( ... )
Тогда я вообще не понимаю, что и как считают. Вот они же пишут:
This diagram shows the percentages of websites using various content languages. See technologies overview for explanations on the methodologies used in the surveys. Our reports are updated daily.
How to read the diagram: English is used by 51.3% of all the websites whose content language we know.
И что значит "websites using various content languages"? Если в содержании сайта используется несколько языков, то галочка ставится только главному языку сайта или всем, что там встречаются? Если первое, то как вычисляют - считают по числу слов? И если второе, то сколько слов на данном языке достаточно, чтобы счесть сайт "использующим язык"?
Но, к примеру, на большинстве корпоративных и т.д. страниц в не-англоязычных странах присутствует хоть какой-то кусочек на английском. Буквально пара фраз почти всегда найдется. Достаточно ли этого, чтобы записать сайт в двуязычные?
Черт его знает. По-моему, тут ответов не найти - какой-то человек спросил на форуме "How the languages are detected?", вот что они отвечают (никакой конкретики):
"Languages are detected in several ways. We look at HTML code, HTTP headers, but we also try to analyze samples of text from web pages, and we include data from partners such as Alexa in the analysis. Unfortunately, quite often the various data sources give contradicting results. In these cases we apply additional heuristics, e.g. frequently seen mistakes in language codes, to come to conclusions."
Можно попробовать их методику повторить - скачать топ миллион сайтов алексы (ссылки гуглятся, а десять миллионов платные, вроде бы), и открыть сто штук из конца вручную. Будет ли там 7 русскоязычных, и каких?
Reply
This diagram shows the percentages of websites using various content languages. See technologies overview for explanations on the methodologies used in the surveys. Our reports are updated daily.
How to read the diagram:
English is used by 51.3% of all the websites whose content language we know.
https://w3techs.com/technologies/overview/content_language/all
И что значит "websites using various content languages"? Если в содержании сайта используется несколько языков, то галочка ставится только главному языку сайта или всем, что там встречаются? Если первое, то как вычисляют - считают по числу слов? И если второе, то сколько слов на данном языке достаточно, чтобы счесть сайт "использующим язык"?
Reply
"Do you analyze only the home page or also inner pages?
That depends on what we know already about the site. Often it's only the home page, in many cases we crawl deeper."
https://w3techs.com/faq
Но вряд ли они обходят весь жж, например, скорее анализируют главную и какое-то количество случайно выбранных страниц.
Reply
Reply
"Languages are detected in several ways. We look at HTML code, HTTP headers, but we also try to analyze samples of text from web pages, and we include data from partners such as Alexa in the analysis. Unfortunately, quite often the various data sources give contradicting results. In these cases we apply additional heuristics, e.g. frequently seen mistakes in language codes, to come to conclusions."
https://w3techs.com/forum/topic/23318
Можно попробовать их методику повторить - скачать топ миллион сайтов алексы (ссылки гуглятся, а десять миллионов платные, вроде бы), и открыть сто штук из конца вручную. Будет ли там 7 русскоязычных, и каких?
Reply
Reply
Reply
Reply
Leave a comment