"Se um trabalhador quiser fazer bem o seu trabalho, ele deve primeiro afiar suas ferramentas." - Confúcio, "Os Analectos de Confúcio. Lu Linggong"
Primeira página > Programação > Conjunto de dados de horário do site

Conjunto de dados de horário do site

Publicado em 2024-11-07
Navegar:597

Olá, encontrei um conjunto de dados no kaggle sobre o tempo de uso de um site, então quero encontrar uma relação entre o número de páginas visitadas e o tempo total no site.

Você pode encontrar o conjunto de dados e o código em meu github: https://github.com/victordalet/Kaggle_análise/tree/feat/website_traffic


I - Instalação

Para fazer isso, eu uso sqlalchemy em python para converter meu csv em um banco de dados e plotar para exibir meus resultados.

pip install plotly
pip install sqlalchemy

II - Código

Crio uma classe Main, na qual recupero meu csv e coloco em um banco de dados, utilizando o método get_data.
O resultado é uma lista de tuplas, então crio o método transform_data para obter uma lista dupla.
Por fim, posso exibir um gráfico simples entre o número de páginas visualizadas e o tempo total.

import pandas as pd
from sqlalchemy import create_engine, text
import plotly.express as px


class Main:
    def __init__(self):
        self.result = None
        self.connection = None

        self.engine = create_engine("sqlite:///my_database.db", echo=False)
        self.df = pd.read_csv("website_wata.csv")
        self.df.to_sql("website_data", self.engine, index=False, if_exists="append")
        self.get_data()
        self.transform_data()
        self.display_graph()


    def get_data(self):
        self.connection = self.engine.connect()
        query = text("SELECT Page_Views, Time_on_Page FROM website_data")
        self.result = self.connection.execute(query).fetchall()

    def transform_data(self):
        for i in range(len(self.result)):
            self.result[i] = list(self.result[i])


    def display_graph(self):
        fig = px.scatter(
            self.result, x=0, y=1, title=""
        )
        fig.show()


Main()

III – Resultado

O eixo x indica o número de páginas visitadas pelo usuário, enquanto o eixo y mostra o tempo gasto no site em minutos.

Podemos observar que os usuários que ficam mais tempo visitam entre 4 e 6 páginas, e que entre 11 e 15 páginas todos os usuários ficam pelo menos alguns minutos.

Website Time dataset

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/victordalet/website-time-dataset-3k47?1 Se houver alguma violação, entre em contato com [email protected] para excluí-lo
Tutorial mais recente Mais>

Isenção de responsabilidade: Todos os recursos fornecidos são parcialmente provenientes da Internet. Se houver qualquer violação de seus direitos autorais ou outros direitos e interesses, explique os motivos detalhados e forneça prova de direitos autorais ou direitos e interesses e envie-a para o e-mail: [email protected]. Nós cuidaremos disso para você o mais rápido possível.

Copyright© 2022 湘ICP备2022001581号-3