Яндекс.Диск может узнать, что написано на картинках

Облачный ресурс Яндекс.Диск теперь может узнать, какой текст написан на каждой картинке. Это позволит пользователям находить изображения по текстовому запросу. За базу поиска текста на картинках взята новая система оптического распознавания символов. В отличие от иных систем распознавания, Яндекс разработал свою, более универсальную систему, которая может работать изображениями самого разного содержания и качества.
Вся новая система распознавания текста на картинках облачного хранилища Яндекс.Диск состоит из двух частей, которые включают в себя сам модуль распознавания и классификатора изображений.
При начале поиска, классификатор выбирает из всех изображений именно те, на которых есть тексты. Формат картинок допускается jpeg, gif, png. Картинки могут быть разбросаны по различным папкам, но универсальный поиск найдет по тексту нужное изображение.
Как отмечает printomat.ru, за несколько лет у людей накопилось миллионы сканированных картинок: сканы паспортов, договоров, различных документов, визиток, объявлений и проч.
После того, как классификатор завершил поиск картинок, в дело вступает модуль распознавания. Он разбивает тексты на отдельные знаки, а затем выбирает несколько вариантов распознавания и принимает решение, какой набор символов лучше всего подходит к запросу.
Языковая модель распознавания использует словари, где учитывается сходство не только тех символов, которые знакомы сервису, но и те, которые стоят рядом. В результате этого складывается слово, известное системе, поэтому она выдает результат, что на картинке изображено именно то слово.
Пока точность распознавания текста зависит от вида картинки, фона, четкости и проч. Для разных видов изображения точность распознавания может меняться. Например, точность распознавания русскоязычных текстов достигает 80%, для фотографий с надписями – 63%, для скриншотов – 100%. Кроме русского языка, система может распознавать турецкий, украинский, английский. Точность распознавания такого потока картинок может достигать 70%.
Рекомендуем по теме:

В отношении GeekBrains подан второй по счету коллективный иск за отказ вернуть деньги за курсы

Квартальная выручка Meta Platforms сократилась впервые с момента основания

Юристы Маска подали встречное исковое заявление против Twitter

Сервис Proxy-solutions добавил услугу "Мобильные прокси"

Банк «Держава» ПАО вывел на биржу первую публичную краудлендинговую платформу

Частные инвестиции становятся основным драйвером роста малого бизнеса

Обзор сервисов для организация двухфакторной аутентификации (2FA) пользователей звонком для сайтов бронирования отелей. 2025 год.

BetBoom Team краткая история успеха

Когда для вашего бизнеса подходят только быстрые и сверхбыстрые хостинг-провайдеры