PYTHON DATAFRAME УДАЛИТЬ ДУБЛИКАТЫ

Python pandas библиотека предоставляет возможность для работы с dataframe - таблицами с данными. Часто возникает задача удаления дубликатов строк таблицы. Для этого существует метод drop_duplicates(), который удаляет все полные дубликаты строк таблицы. Обратите внимание, что метод drop_duplicates() возвращает копию таблицы, а не изменяет исходную таблицу:

import pandas as pd
data = pd.read_csv('example_data.csv')
data_without_duplicates = data.drop_duplicates()

Метод drop_duplicates() также позволяет указать столбцы, по которым нужно искать дубликаты. Например, если нужно удалить строки, которые дублируются только по значениям столбца "name", то можно написать следующий код:

data_without_duplicates = data.drop_duplicates(subset=['name'])

Можно также указать несколько столбцов для поиска дубликатов:

data_without_duplicates = data.drop_duplicates(subset=['name', 'age'])

Кроме того, метод drop_duplicates() позволяет изменять исходную таблицу, используя параметр inplace=True:

data.drop_duplicates(inplace=True)