H2O (logiciel) — Wikipédia

H2O
Description de l'image H2O logo from H2O.ai.png.

Informations
Dernière version 0.1.25 ()[1]
3.31.0 ()[2]Voir et modifier les données sur Wikidata
Dépôt github.com/h2oai/h2o-3Voir et modifier les données sur Wikidata
Assurance qualité Test unitaireVoir et modifier les données sur Wikidata
Écrit en JavaVoir et modifier les données sur Wikidata
Système d'exploitation LinuxVoir et modifier les données sur Wikidata
Environnement Machine virtuelle JavaVoir et modifier les données sur Wikidata
Type Bibliothèque logicielle
Bibliothèque logicielle Python (d)Voir et modifier les données sur Wikidata
Licence Licence ApacheVoir et modifier les données sur Wikidata
Site web www.h2o.ai et h2o.aiVoir et modifier les données sur Wikidata

H2O est un logiciel open source pour l'analyse de données Big data. Il est produit par la société H2O.ai. H2O permet aux utilisateurs de tester des milliers de modèles dans le cadre de la découverte des modèles dans les données.

H2O peut être appelé à partir de programmes en R, Python, ou d'autres environnements. Il est utilisé pour l'exploration et l'analyse de données stockées dans le cloud ou systèmes tel que HDFS, ou sur des systèmes plus conventionnels Linux, mac, Microsoft Windows. H2O est écrit en Java, Python, et R. Son interface graphique est compatible avec les quatre navigateurs: Google Chrome, Safari, Firefox, et Internet Explorer.

Le projet H2O vise à développer une interface pour l'analyse de l'informatique en cloud, en fournissant aux utilisateurs des outils pour l'analyse des données. Le logiciel est open-source et distribué librement. La société se rémunère sur la prestation de service.

Exploration de données big data

[modifier | modifier le code]

Certains jeux de données sont trop grands pour être analysés à l'aide de langages traditionnels comme R. H2O fournit des structures de données et des méthodes appropriées pour le big data. H2O permet aux utilisateurs d'analyser et de visualiser l'ensemble du jeu de données (sans avoir besoin de l'échantillonner). H2O inclut les algorithmes statistiques : K-means, modèles linéaires généralisés, forêt d'arbres décisionnels, machines d'amplification de gradient, classification naïve bayésienne, analyse en composantes principales, et généralisée à faible rang de modèles[3].

H2O est également capable de fonctionner sur Spark[4].

Méthodes itératives pour les problématique temps réel

[modifier | modifier le code]

H2O utilise des méthodes itératives qui fournissent des réponses rapides à l'aide de toutes les données du client. Quand un client ne peut pas attendre pour une solution optimale, le client peut interrompre les calculs et utiliser une solution approximative. Dans son approche de l'apprentissage profond[5], H2O divise les données en sous-ensembles, puis analyse chaque sous-ensemble simultanément à l'aide de la même méthode. Ces processus sont combinés pour estimer les paramètres à l'aide de l'approche Hogwild[6], une méthode comparable à l'Algorithme du gradient stochastique[7]. Ces méthodes permettent à H2O de fournir des réponses sur l'utilisation de toutes les données du client, plutôt que de jeter la plus grande partie de l'analyse d'un sous-ensemble avec les logiciels traditionnels.

Les langages de programmation

[modifier | modifier le code]

Le H2O logiciel dispose d'une interface pour les langages de programmation: Java (6 ou plus), Python (2.7.x, 3.5.x), R (3.0.0 ou plus) et Scala (1.4-1.6).

Les systèmes d'exploitation

[modifier | modifier le code]

Le H2O logiciel peut être exécuté sur les classiques systèmes d'exploitation: Microsoft Windows (7 ou plus récent), Mac OS X (10.9 ou version ultérieure), et Linux (Ubuntu 12.04 ; RHEL/CentOS 6 ou version ultérieure), Il fonctionne également sur de grands volumes de données systèmes, en particulier Apache Hadoop Distributed File System (HDFS), plusieurs versions populaires: Cloudera (5.1 ou version ultérieure), MapR (3.0 ou version ultérieure), et hortonworks a (HDP 2.1 ou version ultérieure). Il fonctionne également sur les environnements de cloud computing, par exemple à l'aide d'Amazon EC2, Google Compute Engine, et Microsoft Azure. Le logiciel l'Eau Pétillante de H2O est Databrickscertifié sur Apache Spark.

Interface utilisateur graphique et navigateurs

[modifier | modifier le code]

Son interface utilisateur graphique est compatible avec les quatre navigateurs: google Chrome, Safari, Firefox, Internet Explorer (IE10).

Références

[modifier | modifier le code]
  1. « Release 0.1.25 », (consulté le )
  2. « Release 3.31.0 », (consulté le )
  3. Aiello, Spencer, Tom Kraljevic et Petr Maj, h2o: R Interface for H2O, The R Project for Statistical Computing, coll. « Contributed Packages », (lire en ligne)
  4. (en) « FAQ — H2O 3.10.2.1 documentation », sur docs.h2o.ai (consulté le )
  5. "Prediction of IncRNA using Deep Learning Approach". Tripathi, Rashmi; Kumari, Vandana; Patel, Sunil; Singh, Yashbir; Varadwaj, Pritish. International Conference on Advances in Biotechnology (BioTech). Proceedings: 138-142. Singapore: Global Science and Technology Forum. (2015)
  6. Description of the iterative method for computing maximum-likelihood estimates for a generalized linear model.
  7. Benjamin Recht, Re, Christopher, Wright, Stephen, Feng Niu, Re, Christopher, Re, Christopher, Re, Christopher, Re, Christopher, Re, Christopher et Re, Christopher, « Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent », Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 24,‎ , p. 693–701 (lire en ligne) Recht's PDF