Open
Conversation
* Добавленны классыЖ
- Site: хранит информацию о сайте
- Page: хранит данные проиндексированной страницы
- Lemma: хранит леммы для поиска
- Index: хранит поисковый индекс
Closes #123
Ддобавленны контроллерыЖ
* startIndexing: запуск полной индексации
* stopIndexing: остановка текущей индексации
* addOrUpdateIndexPage: добавление или обновление отдельной страницы
Closes #123
Author
|
merge |
Avt/feature/add link crawler
добалена возможность обхода сайта
* Создал класс для получения лемм из текста
- получает все русские слова и делит по пробельным символам: getRussianWords(String text)
- исключает из текста слова союзы, междометия, пердлоги: containsExcludedWord(List<String> morphInfo)
- получает все леммы из текста и индексирует вхождение каждой леммы: collectLemmas(String text)
* Добавлен метод для очситки HTML от тегов
- метод 'cleanHtmlOfTags(String html)' очищает входящий текст от тегов с помощью библиотеки Jsoup.
* Добавлены интерфесы:
- IndexRepository: CRUD операции для возможности сохранять объекты Index.
- LemmaRepository: CRUD операции для возможности сохранять Lemma-ы.
* Добавлены классы.
- LemmaServiceImpl: для обработки входящего текста и создания Lemma.
…ассов
* Добавленны классы:
- HtmlTextProcessor: для обработки входящего HTML.
- удаление всех тегов.
- подсчет входящих лемм на странице.
* Добавил классы исключения для Page
- PageException: общий абстрактный класс исключения.
- InvalidUrlException: класс исключения, когда ввходящие данные пусты или имеют неправильный формат.
- OutOfBoundsUrlException: класс исключения когда входящий базовый URI не находится в конфиг файле.
* Добавлен класс ExtendedStatisticServiceImpl для получения статистики
- релизован метод getStatistics() котрый получает статистику обо всех сайтах и о каждом отдельно.
- использует PageRepository для получения всех страниц сайта.
- использует LemmaRepository для получения всех лемм данного сайта
* Изменен класс SiteRepository
- добавлен метод для получения количетсва всех сайтов countSites().
…cs-method Avt/feature/implement statistics method
Avt/feature/page indexing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
No description provided.