Простой алгоритм подсчета количества слов в тексте

Jun 30, 2007 15:38

Заказчики попросили подсчитать количество слов в английских текстовых ресурсах для нескольких web-страниц нашего проекта. Им это нужно для того, чтобы оплатить труд переводчиков, которые старательно переводят наши страницы на другие языки ( Read more... )

programming

Leave a comment

Comments 6

(The comment has been removed)

justandrei June 30 2007, 19:47:04 UTC
Как я уже сказал, алгоритм простой. ;)
Он не универсальный, но вполне годится для нашего проекта, т.к. это web, и у нас в ресурсах нет ни единого переноса слова.

Reply


n0way July 1 2007, 14:55:33 UTC
"Today’s" алгоритм посчитает как два слова?
вообще имхо это можно проще сделать, тупо в один проход.

Reply

justandrei July 1 2007, 16:00:58 UTC
"Today’s" алгоритм посчитает как два слова?
Конечно. Статью, видимо, не читал? ;)

вообще имхо это можно проще сделать, тупо в один проход.
Можно. А что потом скажет суппорт?

Reply

n0way July 1 2007, 16:16:40 UTC
действительно, не читал.
а что скажет суппорт?

Reply

justandrei July 3 2007, 12:13:18 UTC
Вот тебе цытата:
Finally, there is the problem with what grammar calls contracted forms or contractions. As far as one can tell, Word’s word count feature uses a pretty dumb algorithm, which considers that a word is anything that is enclosed within two space characters. The problem is that this completely fails to account for the fact that contractions are actually made of two words. For example, in English isn’t is the contracted form of is not. It should therefore count as two words, not one. Similarly, in French, l’amour is the contract form of le amour and should count as two words as well. In both cases, Word’s word count only counts one word.А суппорт будет очень огорчен, когда увидит цикл со всякими сложными, страшными вычислениями вместо нескольких простых команд, пусть и не самых оптимальных. Огорчится, ругнется и перепишет все заново ( ... )

Reply


Leave a comment

Up