Евроньюс более недоступен в Internet Explorer. Этот браузер не обновляется компанией Microsoft и не поддерживает последние технические параметры. Мы рекомендуем использовать другие браузеры, такие как Edge, Safari, Google Chrome или Mozilla Firefox.
Срочная новость

Искусственный интеллект расшифровывает манускрипты

Искусственный интеллект расшифровывает манускрипты
Euronews logo
Размер текста Aa Aa

Как быстро отыскать нужный фрагмент в архиве старинных манускриптов? До сих пор компьютеры не слишком хорошо справлялись с распознаванием такого текста, но теперь им на помощь приходит искусственный интеллект.

Тирольский Государственный архив в Инсбруке хранит бесчисленное множество документов. Некоторые из них датированы XI веком. В основном это официальные акты, юридические документы и другие важные рукописи из далёкого прошлого. Преобразовать эти книги в электронный вид - задача не из простых. Но этот архив работает с учёными над автоматизацией оптического распознавания текстов с использованием новейших компьютерных технологий.

"С таким сложным шрифтом, как этот, думаю, у новой техники возникнут проблемы. Но в работе с относительно аккуратным почерком, каллиграфией технологии обладают явным преимуществом", - объясняет Кристоф Хайдахер, директор Тирольского Государственного Архива.

Для оцифровки таких книг учёные, работающие над Европейским исследовательским проектом Read, разработали простую в применении систему. В её основе - специальное приложение для смартфонов. Оно реагирует, когда страницы переворачиваются, и автоматически делает фотографии высокого разрешения каждой из них.

"Это сочетание низкотехнологичных методов и новейших технологий. Этот навес - относительно простой, низкотехнологичный аксессуар. Но он работает с высокотехнологичным приложением, установленном на смартфоне. Устройство подключено к платформе «Транскрибус». Приложение загружает изображения на сервер. А он, в свою очередь, распознаёт рукописный текст", - рассказывает Гюнтер Мюльбергер, координатор проекта READ, исследователь в области оцифровки (Инсбрукский Университет).

"Транскрибус" значительно упрощает задачи, на выполнение которых обычно уходят годы, помогая учёным в работе со сложным почерком, необычными макетами.

Доктор Марио Кларер использует его для воссоздания пятисотстраничной "Книги героев" - наиболее значимой антологии в немецкой литературе Средневековья, написанной по заказу

"Преимущество этой технологии заключается в том, что она обеспечивает связь между изображением и текстом и делает это очень простым способом. Так, расшифровщик получает полную картину. Это позволяет свести число ошибок к минимуму. Любым другим способом такого результата достичь нельзя", - уверяет Марио Кларер, профессор литературы и истории культуры Инсбрукского Университета.

Сервер, находящийся в Университете, использует специальные алгоритмы машинного обучения для того, чтобы компьютер мог работать с новыми шрифтами. После того, как пользователи вводят в компьютер часть манускрипта вручную, ПО самостоятельно учится идентифицировать новые символы, а затем завершает расшифровку остального текста, делая это с точностью, превышающей 95%.

"Я ввожу в компьютер изображение и отрывок из текста. С их помощью в дальнейшем он будет распознавать подобный шрифт, стиль письма в манускриптах", - рассказывает Гюнтер Мюльбергер.

Эта система способна расшифровать текст на любом языке. Она объединяет лингвистов, учёных, архивистов и волонтеров из многих стран. Разработчики планируют сделать "Транскрибус" коммерчески доступным пользователям по всему миру.

"Мы не ожидали, что этот проект будет пользоваться таким большим успехом. С нами связались многочисленные учреждения и компании, заинтересованные в нём. Поскольку мы хотим расширить перечень наших услуг, то планируем открыть дочернюю компанию", - заключает наш собеседник.