Sep 11, 2023 11:45
В машинной обработке большого количества текстов встает проблема устранения многозначности слов, поскольку они контекстуально не маркированы (как, например, отличить, относится ли слово plant к растительности или производству?). Так вот, исследования показали, что за счет увеличения объема обрабатываемых данных на два-три порядка достигается большее повышение точности результата, чем за счет подстройки алгоритма.
И вот еще (из того же американского учебника по ИИ):
«Похожее явление, кажется, происходит в задачах компьютерного зрения, таких как заполнение дефектов на фотографиях - дефектов, вызванных либо повреждением, либо удалением бывших друзей. Hays и Efros (2007) разработали умный метод для решения этой задачи, смешивая пиксели из подобных изображений; они обнаружили, что техника плохо работает с базой данных из тысяч изображений, но достигает порога качества с миллионами изображений. Вскоре после этого появление десятков миллионов изображений в базе данных ImageNet (Deng и др., 2009) вызвало революцию в области компьютерного зрения».
Я, правда, пока совсем не понимаю, что такое «смешивание пикселей» (blending pixels), но тенденция-то понятна!
ИИ,
big data