вторник, 7 февраля 2012 г.

Миллионы рукописей ждут ручной оцифровки

Миллионы рукописей ждут ручной оцифровкиОдин монах-переписчик X века жаловался на свою долю: «Попробуйте-ка сами, и вы узнаете, насколько трудна работа писца: в глазах становится темно, спина болит, грудь прилипает к животу. Это тяжёлое испытание для всего тела».

Тем не менее сегодня в архивах работают тысячи интернет-добровольцев, отдающих свободное время расшифровке самых разнородных документов, от наблюдений за птицами до меню нью-йоркских ресторанов рубежа прошлого века.

Конечно, они трудятся в более комфортных условиях, чем средневековая монастырская братия, и могут остановиться в любой момент. В то же время приходится ломать глаза и голову, разбирая плохой почерк и бледные чернила. «Это медленно и утомительно», — подчёркивает Мартин Стрэссер, президент организации Distributed Proofreaders Foundation, сотрудничающей с проектом «Гутенберг». Тем не менее на неё горбатятся более двух тысяч человек по всему миру.

Инициаторы подобных проектов прекрасно понимают, что человеческая культура постепенно перемещается в Интернет, и люди хотят видеть там в том числе исторические документы. А исследователям нужна удобная база данных для поиска и сортировки исторической литературы с помощью компьютерных программ.

В то же время машина пока не может расшифровывать текст так же эффективно, как человек. Г-н Стрэссер полагает, что пройдёт не меньше двадцати лет, прежде чем появятся достаточно дешёвые технические средства расшифровки рукописей, которыми смогут пользоваться некоммерческие организации. Вот только один пример. В 2006 году на семинаре «Технологии семейной истории» Дуглас Кеннард и Уильям Барретт из Университета им. Бригама Янга (США) представили программу для чтения рукописей, которую обучали по типизированному письму. Компьютеру предложили 200 страниц писем Джорджа Вашингтона, и машина смогла распознать в среднем лишь одну букву из трёх.

И это в тексте, который разделён на слова и имеет только одно направление!

Есть и другое решение: сканировать страницы. В отличие от простых фотографий, сканы можно снабдить тегами и возможностью поиска, хотя и не полнотекстового. Даже это становится хорошим подспорьем специалистам.

Так что с работой вручную ничто не сравнится. Её нельзя упрекнуть даже в том, что она продвигается медленно, ибо с сентября 2000 года волонтёры Distributed Proofreaders Foundation добавили в проект «Гутенберг» 22 625 книг, а участники проекта Old Weather с октября 2010-го расшифровали 839 084 страницы судовых журналов британских кораблей.

Самой большой проблемой, конечно, остаётся точность расшифровки, но целый ряд специальных исследований показал, что опасаться почти нечего. «У нас есть редактор, который проверяет работу добровольцев. Они справляются очень хорошо», — говорит Шарон Леон, возглавляющий усилия Университета Джорджа Мейсона (США) по расшифровке документов американского военного ведомства XVIII века. Некоторые проекты поручают расшифровку одной страницы нескольким сотрудникам: например, Old Weather действует по принципу 3:1. Точность составляет 97%.

Привлечение добровольцев — лучший вариант и с финансовой точки зрения. Приступая к своему проекту, Университет Джорджа Мейсона прекрасно понимал, что за расшифровку 45 тыс. документов никто не заплатит, а вот энтузиазма — хоть отбавляй. Секрет, вероятно, в том, что такая работа — вариант вдумчивого чтения, которое тот ещё наркотик.

Подготовлено по материалам Innovation News Daily.

Оригинальная статья

Поделитесь этой новостью с Вашими друзьями!

Ранее в рубрике "Компьютеры":

Консолидация усилий поможет снизить уровень киберугроз - эксперты
Консолидация усилий со стороны законодателей, общества, игроков рынка и самих пользователей поможет снизить уровень угроз в интернете, считают эксперты, выступившие на третьем ежегодном Форуме безопасного интернета в РИА Новости. "Если будет объединение усилий, то мы снизим уровень угроз. Однако полностью избавиться от них невозможно", - заявил генеральный директор корпорации Microsoft в России ...
  (читать дальше)

Ученые проследили за тем, как мозг учится играть в компьютерные игры
Спонтанная активность в коре головного мозга оказалась фактором, который управляет скоростью освоения новых компьютерных игр и других сложных задач на восприятие визуальной информации, заявляют европейские ученые в статье в журнале Proceedings of the National Academy of Sciences. Группа нейрофизиологов под руководством Маурицио Корбетта (Maurizio Corbetta) из университета города Кьети (Италия) п...
  (читать дальше)

3D-моделирование выявило важные особенности диффузионного поведения наночастиц
Некоторые наноразработки полагаются на то, как наночастицы движутся и диффундируют в неидеальных или даже экстремальных условиях. Ригоберто Эрнандес, химик из Технологического университета штата Джорджия (США), вплотную занялся проблемой взаимосвязи между диффузией и свойствами наносистемы, использовав компьютерное моделирование трёхмерной динамики движения частиц. Его работа, рассматривающая пере...
  (читать дальше)

Digma iDx8 и iDx9: планшеты на платформе Android 2.3
В России начались продажи планшетных компьютеров Digma iDx8 и iDx9, оснащённых сенсорным дисплеем с диагональю 8 и 9 дюймов соответственно. Устройства выполнены на процессоре Rockchips RK2918 (тактовая частота не уточняется); объём интегрированной флеш-памяти равен 8 Гб. Есть адаптер беспроводной связи Wi-Fi с поддержкой стандартов IEEE 802.11b/g/n, слот для карт MicroSD, камера с 2-мегапиксельн...
  (читать дальше)

Неттоп Acer Revo RL70 стоит 330 долларов
Компания Acer выбрала аппаратную платформу AMD Brazos для настольного компьютера небольшого формфактора Revo RL70. В неттопе применён процессор E-450 с двумя вычислительными ядрами Bobcat и графическим контроллером Radeon HD 6320, поддерживающим программный интерфейс DirectX 11. Объём оперативной памяти равен 2 Гб; жёсткий диск со скоростью вращения шпинделя 5 400 об/мин вмещает 500 Гб данных. ...
  (читать дальше)

MSI Wind U180: нетбук на платформе Intel Cedar Trail
Компания MSI в ближайшее время начнёт продажи нетбука Wind U180, оборудованного 10,1-дюймовым дисплеем со светодиодной подсветкой. Мини-компьютер выполнен на аппаратной платформе Intel Cedar Trail: он может комплектоваться 1,6-гигагерцевым процессором Atom N2600 или 1,86-гигагерцевым Atom N2800. Чипы имеют два ядра, контроллер памяти DDR3, а также графический контроллер с поддержкой программного...
  (читать дальше)

Fujitsu Stylistic M350: 7-дюймовый планшет для бизнес-пользователей
Компания Fujitsu начинает продажи планшетного компьютера Stylistic M350/CA2, ориентированного на корпоративный рынок. В основе гаджета лежит ARM-процессор Freescale i.MX, функционирующий на тактовой частоте 1 ГГц. Объём оперативной памяти равен 512 Мб; вместимость твердотельного накопителя составляет 8 Гб (расширяется за счёт MicroSD-карт). Сенсорный дисплей имеет диагональ 7 дюймов; его разре...
  (читать дальше)

Начинаются слушания по иску Microsoft к Barnes & Noble
Компания Microsoft скорректировала свои патентные претензии к Barnes & Noble. Редмондская корпорация обвиняет Barnes & Noble в незаконном использовании ряда технологий, связанных с организацией интерфейса в компьютерных устройствах, отображением информации, добавлением аннотаций и пр. Эти запатентованные разработки, по заявлениям Microsoft, применяются в ридерах Nook под управлением опер...
  (читать дальше)

Apple может представить новую модель iPhone на конференции WWDC 2012
Apple, по сообщениям веб-источников, наметила анонс коммуникатора iPhone нового поколения на июнь. По предварительным данным, новый iPhone получит высококачественный дисплей, диагональ которого незначительно превысит 4 дюйма, а также улучшенную камеру. Ранее сообщалось, что задняя часть корпуса аппарата будет изготовлена из алюминия. Смартфон обзаведётся пластиковой или резиновой окантовкой, кот...
  (читать дальше)
НАСА и ЕКА будут осваивать Марс в четыре этапа
Группа учёных из Европы, Канады и США, включая специалистов НАСА и ЕКА, выделила четыре главных требования к будущим проектам, посвящённым доставке образцов марсианского грунта на Землю. Во главу угла поставлены поиск следов прошлой или нынешней жизни. Отправка человека — на последнем месте. Хотя выполнение первоочередной задачи — всё равно что поиск иголки в стоге сена, учёные полагают, что и...
  (читать дальше)

Как природа осуществляет наноразмерный контроль за солнечной энергией
Начало природного процесса захвата солнечной энергии происходит в абсорбирующих свет протеиновых комплексах, называемых фотосинтетическими реакционными центрами (РЦ). Даже после миллиардов лет эволюции Природа и не думает отказываться от находящегося в центре РЦ абсорбирующего свет гексамерного кофактора, нужного для проведения самой первой химической реакции фотосинтеза — индуцированного светом э...
  (читать дальше)

Почему секс и красный цвет взаимосвязаны
Исследователи пришли к выводу, что красные женские гениталии не возбуждают мужчин — следовательно, для сексуальной символики красного цвета нужно искать иное, менее наглядное объяснение. Обычно поведенческие эксперименты такого рода проводят на млекопитающих. Поэтому то, что в исследовании участвовали не самцы обезьян, а обычные мужчины, добавляет результатам ещё и солидную долю пикантности. С...
  (читать дальше)

Как мысли о смерти нам жить помогают
Размышления о смерти делают нас добрее и внимательнее, а вид на кладбище способен помочь с пошатнувшимся здоровьем. Общество обычно табуирует тему смерти. Считается (и тому есть подтверждения в работах психологов), что мысли о смерти негативно влияют на психику, способствуют асоциальному и даже антисоциальному поведению, и что нормальной жизни «размышления о вечном» следует держать в узде. С пси...
  (читать дальше)

Королевство кривых лучей
Обычно свет распространяется по прямой. Конечно, при помощи сред с различными коэффициентами преломления его можно отклонить. Однако новые исследования двух независимых научных групп показывают, что и сам по себе пучок света может изгибаться до 360˚. Часто новое — это хорошо забытое, но не обязательно старое. В конце 1970-х физики Майкл Берри из Бристольского университета (Великобритания) и Нанд...
  (читать дальше)

Объявлены победители конкурса подводной фотографии
Подведены итоги ежегодного конкурса подводной фотографии, который проходит под эгидой Школы морских и атмосферных наук Университета Майами (США). До участия допускаются только любители, которые зарабатывают на фотографии не более 20% своего дохода. Второе место в категории «Макросъёмка»: «фарфоровый» краб из семейства Porcellanidae, зацепившийся за полип морское перо в национальном парк...
  (читать дальше)

Заболевания дёсен, оказывается, не имеют отношения ни к инфарктам, ни к инсультам
Вот уже два десятка лет учёные твердят о связи между заболеваниями дёсен, инфарктами и инсультами. И вдруг новый анализ данных показывает, что эти заявления ошибочны. Американская кардиологическая ассоциация опубликовала в AHA journal Circulation «научный рапорт», заключающий, что периодонтит не повышает риска возникновения сердечно-сосудистых хворей и не является их причиной. Более того, нет ни м...
  (читать дальше)

Аспирин, возможно, помогает против ожирения
Салициловая кислота, образующаяся в результате расщепления аспирина, активирует расщепление жиров в клетке. Кажется, человечество вот уже более полутораста лет живёт с лекарством от всех болезней, не догадываясь о его чудодейственном всемогуществе. Не так давно проходило сообщение о том, что аспирин можно пить для профилактики рака; полным ходом исследуется его благотворное влияние при сердечно-...
  (читать дальше)

Как звучит симметрия субатомного мира?
Хотите услышать песнь позитрона? Итальянский инженер Доменико Вичинанца, кажется, готов воплотить вашу мечту. Этот человек уже экспериментировал с вулканической активностью и даже играл древнегреческую музыку с «Оркестром забытых звуков». Теперь его влечёт субатомный мир туманных и пузырьковых камер — предшественников современных детекторов частиц. Туманную камеру изобрёл в 1895 году шотландск...
  (читать дальше)

Нам бы расписания взять и отменить
Исследователи из Технологического института Джорджии (США) обнаружили, что отмена управления наземным общественным транспортом при помощи расписания и использование децентрализованной самоуправляющейся схемы позволяет сделать движение более эффективным. В работе, опубликованной в журнале Transportation Research, описан алгоритм, позволяющий минимизировать интервалы между появлениями автобусов на о...
  (читать дальше)