Chaque jour, les grandes organisations se mettent à jour avec les technologies qui facilitent et conviennent le mieux à chaque entreprise, confrontées à de grands défis qui leur permettent de découvrir et d'analyser au-delà des outils qui sont utilisés au quotidien, c'est pour eux qu'il a été créé ce que l'on appelle le Big Data ou en espagnol des données massives qui sont des systèmes de stockage de données à grande échelle.
Ce phénomène de stockage s'inscrit dans les nouvelles technologies de l'information et de la communication. Le Big Data est ce qui occupe toutes les activités liées aux systèmes qui stockent un grand ensemble de données. L'une des principales caractéristiques est qu'il manipule une grande quantité d'informations, les collecte, les classe, puis les stocke. Le but de cette collection est de créer des rapports statistiques à l'usage des organisations, que ce soit pour l'analyse des plans d'affaires, la publicité, l'espionnage, entre autres.
La marge de stockage a augmenté au fil des ans, depuis 2008, le niveau de stockage a été mesuré en pétaoctets à zettaoctets de données. Les experts recherchent périodiquement de nouvelles mesures de stockage car il existe certains domaines où de grandes quantités de données doivent être stockées et les programmes existants ne sont pas très optimaux.
Il existe des milliers d'outils pour créer et gérer le Big Data, mais tous ne sont pas identiques, il existe trois types de données, qui sont:
- Données structurées: sont celles où les données ont une structure très particulière, comme les dates, les nombres, entre autres. Les feuilles de calcul en sont un exemple.
- Données non structurées: ce sont généralement des données qui ont un format spécifique et ne peuvent pas être stockées dans une feuille de calcul, encore moins manipuler les informations, un exemple de documents PDF.
- Données semi-structurées: ce type de données n'a pas de format particulier, car il possède ses propres métadonnées semi-structurées, un exemple en est les codes HTML.