Потокавая обработка текстовых данных.pptx

ПОТОКОВАЯ ОБРАБОТКА
ТЕКСТОВЫХ ДАННЫХ
Магистерская программа 09.04.04
«Технологии больших данных»
Студент гр. 8ПМ21: Кузьменко Д.Е.
Научный руководитель: Кайда А.Ю.

Цели работы
• Разработка модулей для подготовки корпуса документов;
• Разработка ETL – конвейера;
• Разработка модуля для метода TF-IDF.

Актуальность
С развитием онлайн-сервисов потоки данные многократно выросли. В
настоящее время для данных, собранных из разных источников нужно передовые
аналитические инструменты для их обработки и хранения

Промежуточное программное обеспечение,
ориентированное на обработку сообщений
Рисунок 1 – Распределенный брокер сообщений Apache Kafka

Рисунок 2 – Жизненный цикл сообщений в Apache Kafka

Рисунок 3 – Схематичное представление ETL – конвейера

  t
k
k
n
tf t,d
n


TF-IDF
 
 
i i
D
idf t,D log
d D | t d

 
     
tf idf t,d,D tf t,d idf t,D
  
Частота встречаемости слова в тексте
Частота встречаемости слова в
корпусе документов
Величина TF-IDF
 
 
i i
D
idf t,D log 1
d D | t d
 
 
Коэффициент IDF, рассчитанный по
методу разработчиков scikit-learn

Описание работы программы
Рисунок 4 – Данные записанные в DataFrame

Рисунок 5 – Текст, содержащий только слова

Рисунок 6 – Некоторое количество лексем из первого текста

Рисунок 7 – Строка, где каждое слово приведено в начальную форму

Рисунок 8 – Матрица элементов (слов) частоты встречаемости этого слова в
одном документе

Рисунок 9 – Матрица элементов (слов) логарифма частоты встречаемости
слова во всех документах

Рисунок 10 – Итоговые коэффициенты TF-IDF для поданного корпуса
документов

Заключение
Реализован фрагмент ETL – конвейера.
Реализация метода TF-IDF в настоящий момент автора данной работы не устраивает, так как
использована библиотека разработчиков scikit-learn, в которую авторы по своему желанию изменили
формулу для расчетов коэффициентов IDF.
В дальнейшем будет реализован собственный модуль для расчета TF - IDF корпуса
документов, а также управление ETL-процессами, из которых состоит ETL – конвейер, с помощью
Apache Kafka. Также будет реализован испытательный стенд для потоковой обработки текстовых
данных.

Потокавая обработка текстовых данных.pptx

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Потокавая обработка текстовых данных.pptx

Semelhante a Потокавая обработка текстовых данных.pptx (20)

Потокавая обработка текстовых данных.pptx