“Si vous torturez les données assez longtemps, il avouera.”
– Ronald Coase, Économiste
Big Data. La collecte des données. L'exploration de données. agrégation des données. La technologie de données. Confidentialité des données. Violation de données. Qu'est-ce que tous ces grands termes de données signifient et comment sont-ils liés - les uns aux autres, et nous? Pourquoi devrions-nous prendre soin de leur sens? Cet article est une tentative d'expliquer quoi que ce soit (nous pourrions penser) associée à vous, l'utilisateur, données et web. Un essai, parce que quand il s'agit de grands volumes de données aucune explication est assez grand.
Tout d'abord de première chose. Qu'est-ce que Big Data?
données Big est un terme relativement nouveau pour quelque chose qui a toujours été autour. Le terme illustre la croissance exponentielle et la disponibilité des données - structurées et non structurées. Certains experts disent même que les grandes données est aussi important pour les entreprises modernes comme l'Internet lui-même. Ils ne sont pas mal.
Dans 2001, analyste de l'industrie Doug Laney décrit une définition très cohérente de gros volumes de données, marqué les trois Vs de gros volumes de données: le volume, la vitesse et la variété.
- Le volume. De nombreux facteurs contribuent à l'augmentation du volume de données. données à base de transactions enregistrées au cours des années. Les données non structurées en continu dans des médias sociaux. Des quantités croissantes de capteurs et les données de machine à machine étant collectées.
- Rapidité. Les données sont en streaming dans à une vitesse sans précédent et doit être traitée en temps opportun. étiquettes RFID, capteurs et compteurs intelligents conduisent la nécessité de traiter avec des torrents de données en temps quasi-réel. Réagissant assez rapidement pour faire face à la vitesse des données est un défi pour la plupart des organisations.
- Variété. aujourd'hui des données est dans tous les types de formats. structuré, des données numériques dans les bases de données traditionnelles. Informations créées à partir d'applications de ligne de business. documents texte non structurés, email, Vidéo, Audio, données téléscripteur et les transactions financières. Gérant, la fusion et qui régit les différentes variétés de données est quelque chose de nombreuses organisations avec encore aux prises.
Est-ce que tout cela semble abstrait pour vous? Comme vous ne pouvez pas porter sur le sujet du tout? détrompez. Parce que vous faites partie du processus, au moins votre présence numérique est. parce que grand (en ligne) les données sont générées par tout ... et tout le monde connecté via le Web. Par conséquent, gros volumes de données arrive de diverses sources, et tirer la valeur pertinente de celle-ci nécessite une puissance optimale de traitement et des capacités d'analyse appropriées. Les données sont la nouvelle unité d'échange le plus précieux, et est peut-être plus précieux que l'argent. Côté business, données est la nouvelle monnaie, et tout le monde veut que certains, ou tout (Google, Microsoft?) de celui-ci.
Voilà comment nous arrivons à l'exploration de données et l'agrégation de données. Une fois que vous avez recueilli toutes les données, que ferez-vous avec elle?
La différence entre les données Collection, Data Mining et d'agrégation des données
Quelle est la collecte des données?
La collecte des données est précisément ce qu'il dit, il est - l'accumulation d'informations, généralement par l'intermédiaire d'un logiciel (outils de collecte de données). Il existe de nombreux types de techniques de collecte de données. Si vous suivez Capteur Forum de Holly régulièrement, vous pourriez avoir lu une chose ou deux sur les pratiques douteuses de collecte de données en ligne, occupée par des tiers. La collecte des données peut se rapporter à différentes approches et résultats, et en fonction du champ que vous êtes à la recherche en, vous obtiendrez une définition différente du terme.
Cependant, être un utilisateur en ligne, vous devez certainement être intéressé par tous les moyens des services en ligne d'acquérir vos informations personnelles. Votre PII est ce qui vous rend précieux. Plus vous, librement et volontairement, part de vous-même, plus il est facile pour les entreprises de “Obtenez” à toi.
Voici une liste des techniques de collecte de données de base et obligatoires, sans que vos services favoris ne seraient pas en mesure d'exister:
- Cookies
- Contenu Web actif
- JavaScript
- Du navigateur Fingerprinting (HTTP) Tête
- Cache du navigateur
- webbugs
- Adresse IP
- Adresse Mac
Maintenant, un affichage plus interactif:
Qu'est-ce que l'exploration de données?
L'exploration de données, d'autre part, nécessite un logiciel et un processus de calcul qui vous permet de découvrir des modèles dans de grands paramètres de données. L'exploration de données est aussi cruciale pour le marketing moderne et le développement des entreprises tout comme les investissements. De nombreuses entreprises investissent dans l'exploration de données - pour augmenter leur profit et le positionnement du produit grâce à la prévision des ventes. Voici comment vous arrivez à saisir le comportement (et les préférences) de vos clients, et d'améliorer vos approches futures.
L'exploration de données implique l'emploi de l'intelligence artificielle, apprentissage machine, statistiques, analyse prédictive, et les systèmes de bases de données. Merci à l'extraction de données, vous pouvez trouver des modèles importants, et cette connaissance, comme mentionné ci-dessus, peut vous aider à tirer des conclusions. Les données ne signifie rien pour votre entreprise si vous ne pouvez pas déduire la valeur de celle-ci.
Qu'en est-agrégation de données?
l'agrégation des données est le cas de la synthèse des données recueillies principalement à des fins d'analyse. Pourquoi voudriez-vous d'agréger les données? Pour obtenir une meilleure idée sur les groupes spécifiques de personnes (comme vos clients - actuels et potentiels) et être en mesure de les regrouper par âge, métier, le revenu, etc. Pourquoi est-ce processus précieux pour les entreprises? Pour améliorer la personnalisation, et rendre vos clients heureux avec le service que vous offrez.
Si vous payez près ou attention aux politiques de confidentialité, vous savez exactement ce que nous entendons.
Vous êtes un utilisateur de Google, n'êtes-vous pas? Connaissez-vous La politique de confidentialité de Google?
Voici un extrait, cliquez sur l'accordéon pour le lire:
Les conséquences de Big Data: violations de données
D'où vient le support utilisateur moyen de PC dans tout cela grand désordre de données? Qu'advient-il de toutes ces données quand un grand service en ligne est piraté?
Plus vous partagez sur vous-même, vous partagez automatiquement des connaissances sur les personnes que vous connaissez - vos amis, et les amis de leurs amis ... Tout ce partage volontaire de données peuvent simplement vous poignarder dans le dos!
Une campagne malveillante très personnalisé a été lancé récemment, destiné aux utilisateurs LinkedIn en Europe. La charge utile de la campagne était des logiciels malveillants misent. Personnes spécifiques ont reçu des e-mails malveillants sur mesure dans différentes langues. Les informations d'identification des utilisateurs qui ont été proposés à la vente sur le marché noir après la violation méga de LinkedIn 2012 ont apparemment été mis à profit par les cyber-criminels. Peut-être est juste le début d'une série de exploits après la brèche.
Les comptes peuvent être divulgués dans d'autres façons, trop. Un autre exemple concerne frais 32 millions de comptes Twitter uniques. Un pirate va par le nom Tessa88, qui est apparemment impliqué dans les récentes violations méga de LinkedIn, Tumblr, Mon espace, prétend avoir obtenu une base de données Twitter composée de millions de comptes.
La base de données a des adresses e-mail (dans certains cas, deux par utilisateur), les noms d'utilisateur, et les mots de passe en texte clair. Tessa88 est le vendre pour 10 Bitcoins, ou approximativement $5,820. LeakedSource estime que la fuite des comptes ne sont pas en raison d'une violation de données, mais en raison de logiciels malveillants. Des dizaines de millions de personnes ont été infectées par des logiciels malveillants, et le logiciel malveillant envoyé à la maison tous les nom d'utilisateur et mot de passe sauvé des navigateurs tels que Chrome et Firefox de tous les sites, y compris Twitter.
Cependant, pas d'informations personnelles de personnes seulement est sensible aux exploits. Les nations sont, trop!
Rapid7, une entreprise de sécurité, vient de publier un vaste rapport (“Indice national d'exposition: Inférant Internet Posture sécurité par pays via le port balayage”) mis l'accent sur les nations les plus exposées aux risques d'attaques sur Internet. Les chercheurs ont constaté que les plus riches et les pays développés sont plus en danger, principalement en raison du nombre élevé de systèmes non sécurisés connectés à Internet. En savoir plus sur le la recherche de l'exposition nationale.
Comment pouvons-nous protéger nos données?
L'approche d'affaires: Logiciel de prévention de perte de données (DLP)
Via l'adoption de logiciels de prévention des pertes de données qui est conçu pour détecter et prévenir les violations de données potentielles.
logiciels DLP se fondent sur des règles métier pour classer et protéger les informations confidentielles afin que les parties non autorisées ne peuvent pas partager les données de compromettre l'organisation. Si un employé a tenté de transmettre un courriel d'affaires en dehors du domaine de l'entreprise ou télécharger un fichier d'entreprise à un service de stockage en nuage de consommation comme Dropbox, l'employé aurait la permission refusée, comme expliqué par TechTarget.
L'approche de l'utilisateur: Conseils pour la vie privée en ligne
- 1. Ne pas révéler des informations personnelles imprudemment, à l'inconnu, les parties non identifiées.
- 2. Allumez les avis de cookies dans votre navigateur Web, ou utiliser un logiciel de gestion des cookies.
- 3. Gardez une adresse e-mail propre, employer des techniques anti-spam. Vous voudrez peut-être de ne pas utiliser la même adresse e-mail pour tous vos comptes en ligne, bureau et mobile.
- 4. Évitez d'envoyer des e-mails personnels aux listes de diffusion. Séparez votre ordinateur de travail de votre personnelle. Ne pas conserver les informations sensibles sur votre machine de travail.
- 5. Un internaute en ligne intelligent et ne cliquez pas sur des liens aléatoires. Et éviter un contenu suspect!
- 6. Needs a context, dans n'importe quelle circonstance, répondre aux spammeurs.
- 7. Portez une attention particulière à la politique de confidentialité, même des services les plus légitimes. Se rendre compte que tout le monde veut vos renseignements personnels!
- 8. Rappelez-vous qu'il est à vous de décider ce que vous partagez détails sur vous-même. Si un service ou une application semble trop exigeant, juste ne l'utilisez pas. Il y a une meilleure alternative, pour sûr.
- 9. Ne pas sous-estimer l'importance du chiffrement!
Qu'est-ce que le chiffrement des données?
Comme expliqué par Heimdal de Andra Zaharia, le cryptage est un processus qui transforme les données ou les informations accessibles en un code inintelligible qui ne peut pas être lu ou compris par des moyens normaux. Le processus de chiffrement utilise une clé et un algorithme pour transformer les données accessibles en un morceau de l'information codée. L'auteur de la sécurité informatique a également fourni une liste des 9 outils de chiffrement gratuit à envisager.
Les références
https://www.sas.com/en_ph/insights/big-data/what-is-big-data.html
https://www.import.io/post/data-mining-vs-data-collection/
https://searchsqlserver.techtarget.com/definition/data-aggregation
https://www.eff.org/wp/effs-top-12-ways-protect-your-online-privacy