2. Цели работы
• Разработка модулей для подготовки корпуса документов;
• Разработка ETL – конвейера;
• Разработка модуля для метода TF-IDF.
3. Актуальность
С развитием онлайн-сервисов потоки данные многократно выросли. В
настоящее время для данных, собранных из разных источников нужно передовые
аналитические инструменты для их обработки и хранения
7. t
k
k
n
tf t,d
n
TF-IDF
i i
D
idf t,D log
d D | t d
tf idf t,d,D tf t,d idf t,D
Частота встречаемости слова в тексте
Частота встречаемости слова в
корпусе документов
Величина TF-IDF
i i
D
idf t,D log 1
d D | t d
Коэффициент IDF, рассчитанный по
методу разработчиков scikit-learn
15. Заключение
Реализован фрагмент ETL – конвейера.
Реализация метода TF-IDF в настоящий момент автора данной работы не устраивает, так как
использована библиотека разработчиков scikit-learn, в которую авторы по своему желанию изменили
формулу для расчетов коэффициентов IDF.
В дальнейшем будет реализован собственный модуль для расчета TF - IDF корпуса
документов, а также управление ETL-процессами, из которых состоит ETL – конвейер, с помощью
Apache Kafka. Также будет реализован испытательный стенд для потоковой обработки текстовых
данных.