COUNTVECTORIZER PYTHON КАК РАБОТАЕТ

CountVectorizer - это класс в библиотеке scikit-learn для конвертации коллекции текстовых документов в матрицу токенов количественных значений. Его можно использовать для предварительной обработки текстовых данных перед подачей на вход модели машинного обучения.

Для начала необходимо импортировать CountVectorizer:

from sklearn.feature_extraction.text import CountVectorizer

Далее необходимо создать экземпляр CountVectorizer:

vectorizer = CountVectorizer()

Затем можно использовать метод fit_transform для преобразования коллекции текстовых документов в матрицу токенов количественных значений:

X = vectorizer.fit_transform(documents)

Здесь documents - это список документов, каждый из которых содержит строку текста.

Матрица X будет содержать количество вхождений каждого токена в каждом документе. Каждый столбец матрицы представляет отдельный токен, а каждая строка представляет отдельный документ.