Connaissances en analyse de données
2024-10-25 09:21:06 0 Signaler
Connectez-vous pour voir le contenu complet
Autres créations de l'auteur
Plan/Contenu
Connaissances de base en analyse de données
Réserve statistique
Distribution discrète et continue
Test d'hypothèse
vérification des paramètres
test non paramétrique
Test de normalité
Test de régression distribuée
S'auto-construire une vérification d'hypothèse : la significativité des activités opérationnelles
Méthode d'estimation des paramètres
méthode du maximum de vraisemblance
estimation par la méthode des moindres carrés
Algèbre linéaire
valeurs propres et vecteurs propres
Le sens des opérations matricielles
Analyser la langue et les outils
R
traitement préalable des données
Écrire une fonction : implémentation de la validation croisée & de l'algorithme de Newton, etc.
Visualisation : graphes ggplot2 conventionnels & résultats de visualisation d'apprentissage machine
Réglage des paramètres d'apprentissage automatique
Python
traitement préalable des données
Analyse de données Python
Implémentation d'algorithme d'apprentissage machine
visualiser
Structure d'algorithme Python
Ecrivez et traitez la langue naturelle
SQL
group by &union
L'ordre syntaxique et l'ordre d'exécution
Optimisation de Hive : optimisation du tri et de la jointure, etc.
Le principe et l'expérience d'utilisation de Hadoop
Écrire des scripts d'exécution (Perl et shell)
SPSS, Stata et Eviews, des logiciels d'analyse commerciale
Principe de l'algorithme
Catégorie
algorithme de classification
Algorithme de régression
l'analyse de corrélation
agrégation
apprentissage par agrégation
Le principe de boostrap, bagging, etc.
Différences et domaines d'application
Application : principes des forêts aléatoires, xgboost, etc.
Sélection et évaluation des modèles
Le contexte d'application du modèle
Réglage et évaluation des modèles
Connaissances en technologie d'analyse de données
rassembler des données
Définir les dimensions d'analyse
Extraire des indicateurs de chaque dimension
traitement préalable des données
Conversion de format
Génération de variables
Gestion des valeurs manquantes
Discrétisation des variables
······
modélisation analytique
Diviser le jeu d'entraînement/de test
Sélection de modèle
Sélection des paramètres
Évaluation du modèle
exactitude
ROC et AUC
Matrice de confusion
fonction objectif
······
Optimisation et surveillance du modèle
La situation d'ajustement du modèle ultérieur
Collecter
Collecter
Collecter
Collecter
0 Commentaires
Page suivante
Recommandé pour vous
Voir plus