Нейросети «Яндекса» распознали 24 тысячи выпусков газеты «Советский спорт» – пользователям доступны не только сканы практически всех выходивших с 1922 по 2022 год номеров газеты, но и возможность поиска по текстовым запросам, сообщила компания в среду.
«Для работы с «Советским спортом» распознающую тексты нейросеть потребовалось адаптировать под особую вёрстку газетных страниц. Это огромные развороты формата А2 со множеством колонок, врезок и рекламных блоков с мелкими буквами на специфической бумаге низкой плотности», – сказано в сообщении.
Улучшенная технология распознавания, которая применялась для работы с выпусками «Советского спорта», в перспективе позволит лучше ориентироваться в других типах сложной вёрстки. Например, они часто встречаются в рукописных архивах. Также с ними регулярно сталкиваются пользователи функции перевода по фото в «Яндекс Переводчике» и умной камеры в приложении «Яндекс» с «Алисой», сообщает компания.
«Яндекс» запустил поиск по архивам в начале 2023 года. Сервис помогает находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетями рукописных документах XVIII–XX веков. Помимо выпусков «Советского спорта» в базе сервиса представлено более 7 миллионов страниц исторических документов из архивов Москвы, Московской, Иркутской, Оренбургской и Новгородской областей, а также нескольких муниципальных архивов.
Обеспечить онлайн-доступ к архивам отечественной прессы, как минимум центральной, времён до Интернета – важнейшая, актуальная задача. В настоящее время периодика, издававшаяся до 2000 примерно года, когда у газет стали появляться свои сайты, практически недоступна. Зал периодических изданий РГБ прекратил работу в основном здании библиотеки в центре Москвы, архив вывезен в подмосковный филиал, пользоваться им архаическим способом, заказывая подшивки газет из хранилища, крайне затруднительно.