Государственный фонд фондов, Институт развития Российской Федерации, АО "РВК" сообщает об открытом запросе предложений на конкурс создания интеллектуального сервиса сбора фактов в архивах Национальной электронной библиотеки на основе алгоритмов глубокого машинного обучения («Нейропоиск»).
В рамках направления «Нейроассистенты» «дорожной карты» «Нейронет» (ДК «Нейронет») предлагается реализовать проект создания интеллектуального сервиса сбора фактов в архивах Национальной электронной библиотеки на основе алгоритмов глубокого машинного обучения («Нейропоиск»).
Целями проекта являются:
- создание сервиса быстрого интерактивного сбора фактов для качественного повышения эффективности исследовательской работы;
- создание сервиса поиска экспертов по любой тематике по их реальному профилю экспертизы;
- внедрение созданных сервисов в Национальной электронной библиотеке.
Идея проекта и подход к его реализации: сервис сбора фактов призван помочь студентам, исследователям и аналитикам быстро собирать подборки фактов по любому вопросу в больших массивах документов. Существующие поисковые сервисы не решают этой задачи, т. к. обычно находят такое количество документов, которое пользователи физически не в состоянии прочитать.
Данный проект предлагает пользователям Национальной электронной библиотека (НЭБ) помощь интеллектуальных агентов, способных мгновенно собирать из ее архивов подборки фактов в соответствии с текущим интересом пользователей. Те же агенты должны уметь находить не только факты, но и пользователей, которые их собирают. Т. е. агенты должны уметь перенаправлять любой вопрос пользователя тем, кто реально способен на него ответить.
Таким образом, интеллектуальный поисковый сервис должен:
- базироваться на технологии индексации смысла фактов;
- уметь автоматически составлять тезаурус и онтологию для всех предметных областей, представленных в архивах НЭБ;
- обновлять свои семантические индексы и расширять предметные онтологии по мере поступления в НЭБ новых материалов в режиме постоянного до-обучения.
Предполагаемые результаты проекта: результатом проекта должен стать программный комплекс, способный в интерактивном режиме:
- выявлять интересы пользователей НЭБ;
- предоставлять им подборки интересующих их фактов;
- перенаправлять их вопросы к «экспертному сообществу» пользователям НЭБ с наибольшим количеством собранных по данной проблеме фактов.
Ожидаемый эффект и ценность для НТИ: разработанные технологии индексации и поиска фактической информации в больших архивах документов могут стать основой большого числа интеллектуальных «вертикальных» поисковых сервисов:
- в наукоемких областях науки (таких, как медицина и фармацевтика);
- для маркетинговых и патентных исследований;
- для юристов, журналистов, служб безопасности и т. д.
Данный проект направлен на преодоление важного технологического барьера — автоматической обработки больших массивов документов, основанной на понимании смысла текстовой информации (natural language understanding).
В проекте должны быть разработаны алгоритмы кодирования смысла фактов на любом естественном языке в любой предметной области методами машинного обучения «без учителя». Т. е. разработанные технологии машинного обучения языку не должны использовать никаких априорных экспертных знаний (словарей, тезаурусов, грамматик).
Результаты проекта смогут послужить основой для создания конкурентоспособных на мировом рынке «вертикальных» поисково-аналитических сервисов.
Общее краткое описание ключевых технических условий и требований к проекту: интеллектуальный сервис сбора фактов должен опираться на:
- алгоритмы компактной индексации смыслов фраз и предложений любого языка, как основы семантического поиска;
- алгоритмы выявления интересов пользователя «на лету» в ходе поисковой сессии, как основа агентского сервиса;
- алгоритмы глубокого обучения любому языку с нуля, «без учителя» (unsupervised learning), т. е. без использования априорных экспертных знаний (словарей, тезаурусов, грамматик).
Обучение новому языку (новой предметной области) с нуля на текстовом массиве объемом не менее 5 Гбайт должно занимать не более суток на однопроцессорном сервере без использования специализированных ускорителей.
Скорость семантической индексации новой информации должна быть не меньше 1 Гбайт/час на однопроцессорном сервере без использования специализированных ускорителей.
Оценка сроков реализации проекта: работающий прототип сервиса с минимальной функциональностью должен быть создан в течение 6 месяцев после подписания Договора и получения финансирования.
В полном объеме сервис должен быть создан в течение 24 месяцев после подписания Договора и получения финансирования.
Форма подачи предложений: предложения принимаются в свободной форме, приведенные шаблоны являются ориентиром для последующего описания проекта при подготовки далее конкурсной заявки.
Срок подачи предложений: До 30 марта 2017 года.
Полная информация о конкурсе на сайте АО "РВК":