Исследование и разроботка

Опрос мнений & Объемные данные Icon Опрос мнений & Объемные данные

Опрос мнений & Объемные данные – это проект сотрудничества с университетской средой, в рамках которого разрабатывается приложение для комплексной обработки крупных текстов и других форматов данных. В проект вовлечены студенты и выпускники Факультета автоматического управлении и информатики, Факультета математики и информатики, а также студенты других факультетов, заинтересованные в предлагаемых темах исследований. Многие из участников защищают дипломные работы, основанные на материалах исследования.

Основной темой проекта является поиск мнений в румынских текстах, автоматическое нахождение заявлений и сообщений для прессы отдельных лиц и компаний, а также обработка открытых данных местных и центральных органов власти (например, данные «Официального обозревателя» (журнал), данные о государственных закупках и другая информация, доступная на платформе www.data.gov.ro).

Для исследования предложенных тем был использован целый ряд специализированных технологий:

  • Обработка текстов на естественных языках: лемматизация, маркировка, оценка эмотивного воздействия, дерево зависимости,  модели n-gram и т.д.
  • Информационный поиск: Apache Nutch & Lucene & Solr;
  • Машинное обучение: Weka, Mallet, clustering (STC, Lingo);
  • Базы данных NoSQL; MongoDB, Neo4j.

По материалам исследования были опубликованы следующие работы:

  • Флоря, И.М., Ребедя, Т., Киру, К.Г.,  Parser de dependenţe pentru limba română realizat pe baza parserelor pentru alte limbi romanice [Синтаксический анализ подчиненности в румынском языке на основании сходных система анализа других романских языков]. Revista Romana de Interactiune Om-Calculator [Румынский журнал взаимодействия человек – компьютер] 7(1), 1-20, 2014. (http://rochi.utcluj.ro/rrioc/articole/RRIOC-7-1-Florea.pdf)
  • Замфиреску, А.Н., Ребедя Т.Е. Identificarea entităţilor, citatelor şi evenimentelor în ştiri şi  texte din Web-ul social în limba română [Поиск организаций, цитат и событий в новостях и текстах социальных сетей на румынском языке] Revista Romana de Interactiune Om-Calculator[Румынский журнал взаимодействия человек – компьютер], 6(2), 169-192, 2013. (http://rochi.utcluj.ro/rrioc/articole/RRIOC-6-2-Zamfirescu.pdf)

На данный момент приложения разрабатываются по трем основным направлениям:

  • Автоматический мониторинг средств массовой информации: поиск упоминаний организаций, мнений, цитат в текстах на румынском языке.
  • Анализ открытых данных для специальных проектов:
    • Сводки о румынских бизнесменах;
    • Анализ тендеров в Румынии;
  • Выявление диалоговых элементов, составляющих историческую, научную или культурную характеристику.
  • Teamnet
  • Политехнический университет Бухареста, факультет автоматического управления и информатики;