Срочная новость

Срочная новость

Искусственный интеллект расшифровывает манускрипты

Сейчас воспроизводится:

Искусственный интеллект расшифровывает манускрипты

Искусственный интеллект расшифровывает манускрипты
Размер текста Aa Aa

Как быстро отыскать нужный фрагмент в архиве старинных манускриптов? До сих пор компьютеры не слишком хорошо справлялись с распознаванием такого текста, но теперь им на помощь приходит искусственный интеллект.

Тирольский Государственный архив в Инсбруке хранит бесчисленное множество документов. Некоторые из них датированы XI веком. В основном это официальные акты, юридические документы и другие важные рукописи из далёкого прошлого. Преобразовать эти книги в электронный вид - задача не из простых. Но этот архив работает с учёными над автоматизацией оптического распознавания текстов с использованием новейших компьютерных технологий.

"С таким сложным шрифтом, как этот, думаю, у новой техники возникнут проблемы. Но в работе с относительно аккуратным почерком, каллиграфией технологии обладают явным преимуществом", - объясняет Кристоф Хайдахер, директор Тирольского Государственного Архива.

Для оцифровки таких книг учёные, работающие над Европейским исследовательским проектом Read, разработали простую в применении систему. В её основе - специальное приложение для смартфонов. Оно реагирует, когда страницы переворачиваются, и автоматически делает фотографии высокого разрешения каждой из них.

"Это сочетание низкотехнологичных методов и новейших технологий. Этот навес - относительно простой, низкотехнологичный аксессуар. Но он работает с высокотехнологичным приложением, установленном на смартфоне. Устройство подключено к платформе «Транскрибус». Приложение загружает изображения на сервер. А он, в свою очередь, распознаёт рукописный текст", - рассказывает Гюнтер Мюльбергер, координатор проекта READ, исследователь в области оцифровки (Инсбрукский Университет).

"Транскрибус" значительно упрощает задачи, на выполнение которых обычно уходят годы, помогая учёным в работе со сложным почерком, необычными макетами.

Доктор Марио Кларер использует его для воссоздания пятисотстраничной "Книги героев" - наиболее значимой антологии в немецкой литературе Средневековья, написанной по заказу

"Преимущество этой технологии заключается в том, что она обеспечивает связь между изображением и текстом и делает это очень простым способом. Так, расшифровщик получает полную картину. Это позволяет свести число ошибок к минимуму. Любым другим способом такого результата достичь нельзя", - уверяет Марио Кларер, профессор литературы и истории культуры Инсбрукского Университета.

Сервер, находящийся в Университете, использует специальные алгоритмы машинного обучения для того, чтобы компьютер мог работать с новыми шрифтами. После того, как пользователи вводят в компьютер часть манускрипта вручную, ПО самостоятельно учится идентифицировать новые символы, а затем завершает расшифровку остального текста, делая это с точностью, превышающей 95%.

"Я ввожу в компьютер изображение и отрывок из текста. С их помощью в дальнейшем он будет распознавать подобный шрифт, стиль письма в манускриптах", - рассказывает Гюнтер Мюльбергер.

Эта система способна расшифровать текст на любом языке. Она объединяет лингвистов, учёных, архивистов и волонтеров из многих стран. Разработчики планируют сделать "Транскрибус" коммерчески доступным пользователям по всему миру.

"Мы не ожидали, что этот проект будет пользоваться таким большим успехом. С нами связались многочисленные учреждения и компании, заинтересованные в нём. Поскольку мы хотим расширить перечень наших услуг, то планируем открыть дочернюю компанию", - заключает наш собеседник.

Больше от футурис