23.12.2021

Российские ученые разработали механизм семантического быстрого поиска по специализированным базам данных

Исследование по сегментации текстовых документов для оптимизации и 20%-ого ускорения поиска нужной информации пользователями было реализовано группой ученых НИТУ «МИСиС» в рамках гранта Российского научного фонда. 

 

Ученые решали задачу корректного поиска объемных документов, близких по смыслу. Обычно в больших сложных документах, особенно в рамках специализированных поисковых систем,  содержится сразу несколько тем, что сильно затрудняет автоматический поиск. Исследователи предложили  использовать метод сегментирования. 

 

«Сегментирование документов — это деление текста на такие отрывки, в которых речь идет об одном и том же, что может быть полезно в разных задачах обработки естественного языка. К таким задачам, например, относится анализ больших документов или поиск по содержанию документа. С точки зрения прикладного машинного обучения сегментация длинных текстов обоснована, так как на коротких текстах обычно лучше работают различные методы векторизации. Это логично, ведь чем больше текст, тем больше в нем разных смыслов и тем сложнее агрегировать все эти смыслы в некоторое общее векторное представление», — рассказывает Никита Никитинский, научный сотрудник Центра исследования больших данных НИТУ «МИСиС».

 

Команда специалистов Центра предложила следующее решение этой проблемы: разбить документ на несколько сегментов, каждый из которых относится к одной теме. По таким тематически однородным кускам текста компьютерному алгоритму проще производить поиск.

 

«В рамках исследования мы использовали метод, основанный на подходе аддитивной регуляризации тематических моделей (additive regularization of topic models, ARTM) и алгоритме TopicTiling. В результате экспериментов удалось улучшить точность работы узкоспециального поиска по научным публикациям с 55% до почти 82%», — добавил Никитинский. 

 

По словам разработчиков, технология уже реализована в российском проекте создания Реестра обязательных требований. 

По их оценкам, с использованием нового метода до 15-20% увеличивается скорость и эффективность поиска нужной информации пользователями, что критично для научных и промышленных организаций.

 

В настоящий момент похожие проблемы решают исследователи и инженеры из других крупных организаций, в том числе Университет Мангейма, французский исследовательский центр EURECOM и Google Research, которые в рамках своих исследований изучали публикации членов научного коллектива по этой тематике.

 

Исследование проводилось в первом году проекта:

https://www.rscf.ru/project/19-11-00281/

 

 

Справка о НИТУ «МИСиС»

НИТУ «МИСиС» — один из наиболее динамично развивающихся научно-образовательных центров страны. Находясь в числе лидеров технологического образования России, НИТУ «МИСиС» также представляет собой полноценный научный центр. Университет занимает ведущие позиции в мире в предметных рейтингах THE, QS и ARWU сразу по 16 направлениям, входя в топ-100 в категориях «Инжиниринг–Горное дело» (рейтинг QS) и «Инжиниринг-Металлургия» (рейтинг ARWU), в области материаловедения НИТУ «МИСиС» в группе 101+ лучших вузов (рейтинг QS).

Стратегическая цель НИТУ «МИСиС» к 2020 году укрепить лидерство по направлениям специализации: материаловедение, металлургия и горное дело, а также существенно усилить свои позиции в сфере био-, нанотехнологий и ИТ. В состав университета входит 10 институтов, 6 филиалов – четыре в России и два за рубежом. В НИТУ «МИСиС» учится более 20 000 обучающихся, среди них 26% – это студенты из 84 стран мира. В университете действуют более 30 научно-исследовательских лабораторий и 3 инжиниринговых центра мирового уровня, в которых работают ведущие российские и зарубежные ученые. НИТУ «МИСиС» успешно реализует совместные проекты с крупнейшими высокотехнологичными компаниями России и мира.

Это интересно:

Метки: , ,

Еще статьи на эту тему:
Смотрите также:

Оставить комментарий

Вы должны авторизоваться для отправки комментария.

  • Интересно

    Кто виноват и что делать? — ответы на самые важные вопросы!

  • Книги по бизнесу

    • "Разумный инвестор. Полное руководство по стоимостному инвестированию" Грэм Бенджамин - Мировой бестселлер, выдержавший множество переизданий по всему миру, книга Бенджамина Грэма (1394-1976) является уникальным пособием по выстраиванию инвестиционной политики. Автор, всемирно известный экономист и авторитетный профессиональный инвестор, главное внимание уделяет не анализу ценных бумаг, а принципам инвестирования, предлагая действовать разумно и осторожно независимо от поведения фондового рынка.

    • "Переиграть Уолл-стрит" Питер Линч - куда выгоднее вкладывать деньги — в акции или облигации? Как выбрать лучшие акции, которые станут победителями на рынке? Как правильно читать баланс и финансовые отчеты компании, чтобы получить максимум информации для принятия решения? Что нужно учитывать при выборе взаимного фонда? Как обогнать рынок? Эти и множество других вопросов профессионально и доходчиво обсуждаются автором, сумевшим превратить историю своего 13-летнего управления фондом в остроумное и увлекательное повествование.

    • "Финансовая отчетность для руководителей и начинающих специалистов" Герасименко Алексей - в этой книге шаг за шагом рассматриваются вопросы составления и интерпретации финансовой отчетности предприятия. Все концепции раскрываются на примерах из реальной отчетности крупных российских компаний. Используя богатый практический опыт, автор раскрывает все нюансы финансовой отчетности, в том числе и специфические «западные» вопросы составления отчетности по МСФО.

    • "Настольная книга финансового директора" Брег С. -эта книга является не только превосходным учебником, но и полным справочником для финансовых директоров практически по всем аспектам их повседневной работы. Главное достоинство книги - ее практическая направленность.

Банки | Бизнес | Второе гражданство | Закон | Как заработать в интернете | Купить остров | Недвижимость | Новости бизнеса | Оффшоры | Стиль жизни | Страны мира

| | | |
Business Key Top Sites
level: 3