SlideShare uma empresa Scribd logo
1 de 15
ПОТОКОВАЯ ОБРАБОТКА
ТЕКСТОВЫХ ДАННЫХ
Магистерская программа 09.04.04
«Технологии больших данных»
Студент гр. 8ПМ21: Кузьменко Д.Е.
Научный руководитель: Кайда А.Ю.
Цели работы
• Разработка модулей для подготовки корпуса документов;
• Разработка ETL – конвейера;
• Разработка модуля для метода TF-IDF.
Актуальность
С развитием онлайн-сервисов потоки данные многократно выросли. В
настоящее время для данных, собранных из разных источников нужно передовые
аналитические инструменты для их обработки и хранения
Промежуточное программное обеспечение,
ориентированное на обработку сообщений
Рисунок 1 – Распределенный брокер сообщений Apache Kafka
Промежуточное программное обеспечение,
ориентированное на обработку сообщений
Рисунок 2 – Жизненный цикл сообщений в Apache Kafka
Промежуточное программное обеспечение,
ориентированное на обработку сообщений
Рисунок 3 – Схематичное представление ETL – конвейера
  t
k
k
n
tf t,d
n


TF-IDF
 
 
i i
D
idf t,D log
d D | t d

 
     
tf idf t,d,D tf t,d idf t,D
  
Частота встречаемости слова в тексте
Частота встречаемости слова в
корпусе документов
Величина TF-IDF
 
 
i i
D
idf t,D log 1
d D | t d
 
 
Коэффициент IDF, рассчитанный по
методу разработчиков scikit-learn
Описание работы программы
Рисунок 4 – Данные записанные в DataFrame
Описание работы программы
Рисунок 5 – Текст, содержащий только слова
Описание работы программы
Рисунок 6 – Некоторое количество лексем из первого текста
Описание работы программы
Рисунок 7 – Строка, где каждое слово приведено в начальную форму
Описание работы программы
Рисунок 8 – Матрица элементов (слов) частоты встречаемости этого слова в
одном документе
Описание работы программы
Рисунок 9 – Матрица элементов (слов) логарифма частоты встречаемости
слова во всех документах
Описание работы программы
Рисунок 10 – Итоговые коэффициенты TF-IDF для поданного корпуса
документов
Заключение
Реализован фрагмент ETL – конвейера.
Реализация метода TF-IDF в настоящий момент автора данной работы не устраивает, так как
использована библиотека разработчиков scikit-learn, в которую авторы по своему желанию изменили
формулу для расчетов коэффициентов IDF.
В дальнейшем будет реализован собственный модуль для расчета TF - IDF корпуса
документов, а также управление ETL-процессами, из которых состоит ETL – конвейер, с помощью
Apache Kafka. Также будет реализован испытательный стенд для потоковой обработки текстовых
данных.

Mais conteúdo relacionado

Semelhante a Потокавая обработка текстовых данных.pptx

автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
anna_vereshchagina
 
Проверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложенийПроверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложений
Media Gorod
 
инструменты параллельного программирования
инструменты параллельного программированияинструменты параллельного программирования
инструменты параллельного программирования
Alexander Petrov
 
2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий
2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий
2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий
JSC “Arcadia Inc”
 
введение в интернет
введение в интернетвведение в интернет
введение в интернет
Ulyana1973
 

Semelhante a Потокавая обработка текстовых данных.pptx (20)

автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
 
Breaking logs
Breaking logsBreaking logs
Breaking logs
 
Qlogic: Технологии Ethernet
Qlogic: Технологии EthernetQlogic: Технологии Ethernet
Qlogic: Технологии Ethernet
 
Catalyst – MVC framework на Perl (RIT 2008)
Catalyst – MVC framework на Perl  (RIT 2008)Catalyst – MVC framework на Perl  (RIT 2008)
Catalyst – MVC framework на Perl (RIT 2008)
 
Mobile Monday Kiev#1 - How to save time in Mobile Apps Development
Mobile Monday Kiev#1 - How to save time in Mobile Apps DevelopmentMobile Monday Kiev#1 - How to save time in Mobile Apps Development
Mobile Monday Kiev#1 - How to save time in Mobile Apps Development
 
Symfony 3
Symfony 3Symfony 3
Symfony 3
 
Проверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложенийПроверено и работает. Инструменты Oracle для разработки веб приложений
Проверено и работает. Инструменты Oracle для разработки веб приложений
 
0. hello java world
0. hello java world0. hello java world
0. hello java world
 
инструменты параллельного программирования
инструменты параллельного программированияинструменты параллельного программирования
инструменты параллельного программирования
 
Middleware
MiddlewareMiddleware
Middleware
 
Inroducing SAP ABAP - Presentation with basics SAP ABAP
Inroducing SAP ABAP - Presentation with basics SAP ABAPInroducing SAP ABAP - Presentation with basics SAP ABAP
Inroducing SAP ABAP - Presentation with basics SAP ABAP
 
Отладка и оптимизация многопоточных OpenMP-программ
Отладка и оптимизация многопоточных OpenMP-программОтладка и оптимизация многопоточных OpenMP-программ
Отладка и оптимизация многопоточных OpenMP-программ
 
C++ STL & Qt. Занятие 11.
C++ STL & Qt. Занятие 11.C++ STL & Qt. Занятие 11.
C++ STL & Qt. Занятие 11.
 
Лекция 1. Модель OSI.
Лекция 1. Модель OSI.Лекция 1. Модель OSI.
Лекция 1. Модель OSI.
 
2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий
2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий
2015-12-12 | AzovDevMeetup 2015 | Enterprise приложения на PHP | Павел Крынецкий
 
Инфрраструктура ЦОД - интерконнект от Qlogik
Инфрраструктура ЦОД - интерконнект от QlogikИнфрраструктура ЦОД - интерконнект от Qlogik
Инфрраструктура ЦОД - интерконнект от Qlogik
 
Экскурс в мир WEB разработки
Экскурс в мир WEB разработкиЭкскурс в мир WEB разработки
Экскурс в мир WEB разработки
 
Custom Language Plugin for JetBrains IDEA
Custom Language Plugin for JetBrains IDEACustom Language Plugin for JetBrains IDEA
Custom Language Plugin for JetBrains IDEA
 
.NET Development
.NET Development.NET Development
.NET Development
 
введение в интернет
введение в интернетвведение в интернет
введение в интернет
 

Потокавая обработка текстовых данных.pptx