Skip to content

1#7

Open
Best-Turner wants to merge 28 commits intosortedmap:masterfrom
Best-Turner:master
Open

1#7
Best-Turner wants to merge 28 commits intosortedmap:masterfrom
Best-Turner:master

Conversation

@Best-Turner
Copy link

No description provided.

* Добавленны классыЖ
    - Site: хранит информацию о сайте
    - Page: хранит данные проиндексированной страницы
    - Lemma: хранит леммы для поиска
    - Index: хранит поисковый индекс

Closes #123
Ддобавленны контроллерыЖ
    * startIndexing: запуск полной индексации
    * stopIndexing: остановка текущей индексации
    * addOrUpdateIndexPage: добавление или обновление отдельной страницы

Closes #123
@Best-Turner
Copy link
Author

merge

Best-Turner and others added 25 commits March 12, 2025 22:41
добалена возможность обхода сайта
* Создал класс для получения лемм из текста
    - получает все русские слова и делит по пробельным символам: getRussianWords(String text)
    - исключает из текста слова союзы, междометия, пердлоги: containsExcludedWord(List<String> morphInfo)
    - получает все леммы из текста и индексирует вхождение каждой леммы: collectLemmas(String text)
* Добавлен метод для очситки HTML от тегов
    - метод 'cleanHtmlOfTags(String html)' очищает входящий текст от тегов с помощью библиотеки Jsoup.
* Добавлены интерфесы:
    - IndexRepository: CRUD операции для возможности сохранять объекты Index.
    - LemmaRepository: CRUD операции для возможности сохранять Lemma-ы.
* Добавлены классы.
    - LemmaServiceImpl: для обработки входящего текста и создания Lemma.
…ассов

* Добавленны классы:
    - HtmlTextProcessor: для обработки входящего HTML.
        - удаление всех тегов.
        - подсчет входящих лемм на странице.
* Добавил классы исключения для Page
    - PageException: общий абстрактный класс исключения.
    - InvalidUrlException: класс исключения, когда ввходящие данные пусты или имеют неправильный формат.
    - OutOfBoundsUrlException: класс исключения когда входящий базовый URI не находится в конфиг файле.
* Добавлен класс ExtendedStatisticServiceImpl для получения статистики
    - релизован метод getStatistics() котрый получает статистику обо всех сайтах и о каждом отдельно.
        - использует  PageRepository для получения всех страниц сайта.
        - использует LemmaRepository для получения всех лемм данного сайта
* Изменен класс SiteRepository
    - добавлен метод для получения количетсва всех сайтов countSites().
…cs-method

Avt/feature/implement statistics method
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant