Le comptage des valeurs uniques regroupées par une colonne spécifique est une tâche courante dans l'analyse des données. Pandas propose différentes méthodes pour y parvenir.
Dans votre cas, vous disposez d'un DataFrame avec des colonnes « ID » et « domaine » et devez compter les valeurs « ID » uniques pour chaque « domaine ».
Utilisation de df.groupby['domain', 'ID'].count()' :
Cette méthode renvoie un DataFrame avec des comptes pour les groupes 'ID' et 'domain' . Cependant, il compte le nombre de lignes dans chaque groupe, pas seulement les valeurs 'ID' uniques.
Solution avec `nunique()' :
df.groupby ('domain')['ID'].nunique() calcule le nombre d'« ID » unique pour chaque groupe de « domaine ». Le DataFrame résultant aura la colonne « domaine » comme index et le nombre comme nouvelle colonne.
Suppression des guillemets simples :
Si votre colonne « domaine » contient guillemets simples, utilisez df.domain.str.strip("'") pour les supprimer avant le regroupement.
Conserver le nom de la colonne :
Pour conserver l'« ID » nom de la colonne dans le résultat, utilisez df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique}). Cela créera un DataFrame avec les colonnes « domaine » et « ID » (nombre unique).
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3