-
Notifications
You must be signed in to change notification settings - Fork 0
LasTshaMAN/TermsExtractor
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
Данная программа является реализацией алгоритма выделения ключевых понятий, описанного в выпускной квалификационной работе:
"Автоматическое извлечение ключевых понятий из текста с учетом иерархической структуры предметной области"
Программа принимает на вход:
- Документ под названием "target", который должен быть расположен в корневой директории данной программы. Это документ,
из которого надо выделить ключевые понятия
- Разбитый по темам корпус текстов, расположенный в директории "clustered_corpus". Сама директория "clustered_corpus"
должна быть распложена в корневой директории данной программы. Внутри директории должны располагаться папки, каждая
из которых содержит текстовые файлы, принадлежащие одной теме.
На выходе программа выдает ранжированный список кандидатов в ключевые понятия. Каждому кандидату соответсвует оценка
его релевантности - Rank. Для каждого кандидата в этой таблице содержатся так же значения признаков TF, IDF, CU и
значения DF на всех темах корпуса "clustered_corpus".
Для запуска данной программы потребуются:
- Python интерпретатор (тестирование проводилось на версии 3.5.0)
- Библиотеки nltk и prettytable
Библиотеки можно установить набором команд:
pip install nltk
pip install prettytable
Так же, необходимо запустить установочный скрипт Installer.py, который скачает метаданные для библиотеки nltk. Из директории проекта
запуск будет выглядить так:
python Installer.py
После этого можно запустить данную программу. Из директории проекта запуск будет выглядить так:
python Main.py
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published