Leave a comment

rednyrg721 January 13 2018, 13:29:59 UTC
Нашёл подробностей - главное, имхо, что проценты по вебсайтам, а не страницам, весь жж у них это та же самая единичка, что и какой-нибудь спам-сайт из десятого миллиона:

"- We investigate technologies of websites, not of individual web pages. If we find a technology on any of the pages, it is considered to be used by the website.

- We include only the top 10 million websites (top 1 million before June 2013) in the statistics in order to limit the impact of domain spammers. We use website popularity rankings provided by Alexa (an Amazon.com company) using a 3 months average ranking. Alexa rankings are sometimes considered inaccurate for measuring website traffic, but we find that they serve our purpose of providing a representative sample of established sites very well.

- We do not consider subdomains to be separate websites. For instance, sub1.example.com and sub2.example.com are considered to belong to the same site as example.com. That means for example, that all the subdomains of blogger.com, wordpress.com and similar sites are counted only as one website.

- We do not include redirected domains. For example, Sun.com redirects to Oracle.com, and is therefore not counted.

- Because our definition of "website" differs a bit from Alexa's definition, the "top 10 million" websites are actually less than 10 million. However, this has no statistical significance."



bbb January 14 2018, 07:52:54 UTC
Тогда я вообще не понимаю, что и как считают. Вот они же пишут:

This diagram shows the percentages of websites using various content languages. See technologies overview for explanations on the methodologies used in the surveys. Our reports are updated daily.

How to read the diagram:
English is used by 51.3% of all the websites whose content language we know.


И что значит "websites using various content languages"? Если в содержании сайта используется несколько языков, то галочка ставится только главному языку сайта или всем, что там встречаются? Если первое, то как вычисляют - считают по числу слов? И если второе, то сколько слов на данном языке достаточно, чтобы счесть сайт "использующим язык"?


rednyrg721 January 14 2018, 08:36:40 UTC
Да, всё очень расплывчато написано. Ещё в FAQ есть релевантный кусочек:

"Do you analyze only the home page or also inner pages?

That depends on what we know already about the site. Often it's only the home page, in many cases we crawl deeper."


Но вряд ли они обходят весь жж, например, скорее анализируют главную и какое-то количество случайно выбранных страниц.


bbb January 14 2018, 09:00:33 UTC
Но, к примеру, на большинстве корпоративных и т.д. страниц в не-англоязычных странах присутствует хоть какой-то кусочек на английском. Буквально пара фраз почти всегда найдется. Достаточно ли этого, чтобы записать сайт в двуязычные?


rednyrg721 January 14 2018, 09:27:23 UTC
Черт его знает. По-моему, тут ответов не найти - какой-то человек спросил на форуме "How the languages are detected?", вот что они отвечают (никакой конкретики):

"Languages are detected in several ways. We look at HTML code, HTTP headers, but we also try to analyze samples of text from web pages, and we include data from partners such as Alexa in the analysis. Unfortunately, quite often the various data sources give contradicting results. In these cases we apply additional heuristics, e.g. frequently seen mistakes in language codes, to come to conclusions."


Можно попробовать их методику повторить - скачать топ миллион сайтов алексы (ссылки гуглятся, а десять миллионов платные, вроде бы), и открыть сто штук из конца вручную. Будет ли там 7 русскоязычных, и каких?


green_fr January 15 2018, 13:44:17 UTC
Например если в html-коде встречаются какие-то английские слова. Body, head, ну да мало ли...


bgmt January 15 2018, 14:44:21 UTC
Ну вряд ли. Потому что тогда неанглоязычных просто бы не было. А их в сумме очень немало процентов.


green_fr January 15 2018, 14:46:45 UTC
Прости, Бегемот, это я так глупо шучу.


Leave a comment
