Опрос мнений & Объемные данные
Опрос мнений & Объемные данные – это проект сотрудничества с университетской средой, в рамках которого разрабатывается приложение для комплексной обработки крупных текстов и других форматов данных. В проект вовлечены студенты и выпускники Факультета автоматического управлении и информатики, Факультета математики и информатики, а также студенты других факультетов, заинтересованные в предлагаемых темах исследований. Многие из участников защищают дипломные работы, основанные на материалах исследования.
Основной темой проекта является поиск мнений в румынских текстах, автоматическое нахождение заявлений и сообщений для прессы отдельных лиц и компаний, а также обработка открытых данных местных и центральных органов власти (например, данные «Официального обозревателя» (журнал), данные о государственных закупках и другая информация, доступная на платформе www.data.gov.ro).
Для исследования предложенных тем был использован целый ряд специализированных технологий:
- Обработка текстов на естественных языках: лемматизация, маркировка, оценка эмотивного воздействия, дерево зависимости, модели n-gram и т.д.
- Информационный поиск: Apache Nutch & Lucene & Solr;
- Машинное обучение: Weka, Mallet, clustering (STC, Lingo);
- Базы данных NoSQL; MongoDB, Neo4j.
По материалам исследования были опубликованы следующие работы:
- Флоря, И.М., Ребедя, Т., Киру, К.Г., Parser de dependenţe pentru limba română realizat pe baza parserelor pentru alte limbi romanice [Синтаксический анализ подчиненности в румынском языке на основании сходных система анализа других романских языков]. Revista Romana de Interactiune Om-Calculator [Румынский журнал взаимодействия человек – компьютер] 7(1), 1-20, 2014. (http://rochi.utcluj.ro/rrioc/articole/RRIOC-7-1-Florea.pdf)
- Замфиреску, А.Н., Ребедя Т.Е. Identificarea entităţilor, citatelor şi evenimentelor în ştiri şi texte din Web-ul social în limba română [Поиск организаций, цитат и событий в новостях и текстах социальных сетей на румынском языке] Revista Romana de Interactiune Om-Calculator[Румынский журнал взаимодействия человек – компьютер], 6(2), 169-192, 2013. (http://rochi.utcluj.ro/rrioc/articole/RRIOC-6-2-Zamfirescu.pdf)
На данный момент приложения разрабатываются по трем основным направлениям:
- Автоматический мониторинг средств массовой информации: поиск упоминаний организаций, мнений, цитат в текстах на румынском языке.
- Анализ открытых данных для специальных проектов:
- Сводки о румынских бизнесменах;
- Анализ тендеров в Румынии;
- Выявление диалоговых элементов, составляющих историческую, научную или культурную характеристику.
- Teamnet
- Политехнический университет Бухареста, факультет автоматического управления и информатики;