Le Big Data Obsession: Partager, Collecte, Violation, Répéter

par Milena Dimitrova | Dernière mise à jour: Décembre 30, 2022 | 0 Commentaires

COLLECTE DE DONNÉES

“Si vous torturez les données assez longtemps, il avouera.”
– Ronald Coase, Économiste

Big Data. La collecte des données. L'exploration de données. agrégation des données. La technologie de données. Confidentialité des données. Violation de données. Qu'est-ce que tous ces grands termes de données signifient et comment sont-ils liés - les uns aux autres, et nous? Pourquoi devrions-nous prendre soin de leur sens? Cet article est une tentative d'expliquer quoi que ce soit (nous pourrions penser) associée à vous, l'utilisateur, données et web. Un essai, parce que quand il s'agit de grands volumes de données aucune explication est assez grand.

Tout d'abord de première chose. Qu'est-ce que Big Data?

données Big est un terme relativement nouveau pour quelque chose qui a toujours été autour. Le terme illustre la croissance exponentielle et la disponibilité des données - structurées et non structurées. Certains experts disent même que les grandes données est aussi important pour les entreprises modernes comme l'Internet lui-même. Ils ne sont pas mal.

Dans 2001, analyste de l'industrie Doug Laney décrit une définition très cohérente de gros volumes de données, marqué les trois Vs de gros volumes de données: le volume, la vitesse et la variété.

Le volume. De nombreux facteurs contribuent à l'augmentation du volume de données. données à base de transactions enregistrées au cours des années. Les données non structurées en continu dans des médias sociaux. Des quantités croissantes de capteurs et les données de machine à machine étant collectées.

Rapidité. Les données sont en streaming dans à une vitesse sans précédent et doit être traitée en temps opportun. étiquettes RFID, capteurs et compteurs intelligents conduisent la nécessité de traiter avec des torrents de données en temps quasi-réel. Réagissant assez rapidement pour faire face à la vitesse des données est un défi pour la plupart des organisations.

Variété. aujourd'hui des données est dans tous les types de formats. structuré, des données numériques dans les bases de données traditionnelles. Informations créées à partir d'applications de ligne de business. documents texte non structurés, email, Vidéo, Audio, données téléscripteur et les transactions financières. Gérant, la fusion et qui régit les différentes variétés de données est quelque chose de nombreuses organisations avec encore aux prises.

Est-ce que tout cela semble abstrait pour vous? Comme vous ne pouvez pas porter sur le sujet du tout? détrompez. Parce que vous faites partie du processus, au moins votre présence numérique est. parce que grand (en ligne) les données sont générées par tout ... et tout le monde connecté via le Web. Par conséquent, gros volumes de données arrive de diverses sources, et tirer la valeur pertinente de celle-ci nécessite une puissance optimale de traitement et des capacités d'analyse appropriées. Les données sont la nouvelle unité d'échange le plus précieux, et est peut-être plus précieux que l'argent. Côté business, données est la nouvelle monnaie, et tout le monde veut que certains, ou tout (Google, Microsoft?) de celui-ci.

Voilà comment nous arrivons à l'exploration de données et l'agrégation de données. Une fois que vous avez recueilli toutes les données, que ferez-vous avec elle?

La différence entre les données Collection, Data Mining et d'agrégation des données

Quelle est la collecte des données?

La collecte des données est précisément ce qu'il dit, il est - l'accumulation d'informations, généralement par l'intermédiaire d'un logiciel (outils de collecte de données). Il existe de nombreux types de techniques de collecte de données. Si vous suivez Capteur Forum de Holly régulièrement, vous pourriez avoir lu une chose ou deux sur les pratiques douteuses de collecte de données en ligne, occupée par des tiers. La collecte des données peut se rapporter à différentes approches et résultats, et en fonction du champ que vous êtes à la recherche en, vous obtiendrez une définition différente du terme.

Cependant, être un utilisateur en ligne, vous devez certainement être intéressé par tous les moyens des services en ligne d'acquérir vos informations personnelles. Votre PII est ce qui vous rend précieux. Plus vous, librement et volontairement, part de vous-même, plus il est facile pour les entreprises de “Obtenez” à toi.

Voici une liste des techniques de collecte de données de base et obligatoires, sans que vos services favoris ne seraient pas en mesure d'exister:

Cookies
Contenu Web actif
JavaScript
Du navigateur Fingerprinting (HTTP) Tête
Cache du navigateur
webbugs
Adresse IP
Adresse Mac

Maintenant, un affichage plus interactif:
de collecte de données-infographics-stforum-22

Qu'est-ce que l'exploration de données?

L'exploration de données, d'autre part, nécessite un logiciel et un processus de calcul qui vous permet de découvrir des modèles dans de grands paramètres de données. L'exploration de données est aussi cruciale pour le marketing moderne et le développement des entreprises tout comme les investissements. De nombreuses entreprises investissent dans l'exploration de données - pour augmenter leur profit et le positionnement du produit grâce à la prévision des ventes. Voici comment vous arrivez à saisir le comportement (et les préférences) de vos clients, et d'améliorer vos approches futures.

L'exploration de données implique l'emploi de l'intelligence artificielle, apprentissage machine, statistiques, analyse prédictive, et les systèmes de bases de données. Merci à l'extraction de données, vous pouvez trouver des modèles importants, et cette connaissance, comme mentionné ci-dessus, peut vous aider à tirer des conclusions. Les données ne signifie rien pour votre entreprise si vous ne pouvez pas déduire la valeur de celle-ci.

Qu'en est-agrégation de données?

l'agrégation des données est le cas de la synthèse des données recueillies principalement à des fins d'analyse. Pourquoi voudriez-vous d'agréger les données? Pour obtenir une meilleure idée sur les groupes spécifiques de personnes (comme vos clients - actuels et potentiels) et être en mesure de les regrouper par âge, métier, le revenu, etc. Pourquoi est-ce processus précieux pour les entreprises? Pour améliorer la personnalisation, et rendre vos clients heureux avec le service que vous offrez.

Si vous payez près ou attention aux politiques de confidentialité, vous savez exactement ce que nous entendons.

Vous êtes un utilisateur de Google, n'êtes-vous pas? Connaissez-vous La politique de confidentialité de Google?

Voici un extrait, cliquez sur l'accordéon pour le lire:

Politique de confidentialité de Google

Les informations que nous recueillons
Nous recueillons des informations pour fournir de meilleurs services à tous nos utilisateurs - de déterminer des trucs de base comme la langue que vous parlez, à des choses plus complexes comme les annonces que vous trouverez le plus utile, les gens qui comptent le plus pour vous en ligne, ou les vidéos YouTube, vous pourriez aimer.
Nous recueillons des informations de la manière suivante:
Les informations que vous nous communiquez. Par exemple, beaucoup de nos services, vous devez vous inscrire à un compte Google. Lorsque vous faites, nous demanderons des renseignements personnels, comme votre nom, adresse e-mail, numéro de téléphone ou de carte de crédit pour stocker avec votre compte. Si vous voulez profiter pleinement des fonctionnalités de partage que nous offrons, nous pourrions également vous demander de créer un profil Google public visible, qui peut inclure votre nom et votre photo.
Les informations que nous recevons de votre utilisation de nos services. Nous recueillons des informations sur les services que vous utilisez et comment vous les utiliser, comme lorsque vous regardez une vidéo sur YouTube, visiter un site Web qui utilise nos services de publicité, ou voir et d'interagir avec nos annonces et le contenu. Ces informations comprennent:
Informations sur l'appareil
Nous recueillons des informations spécifiques à l'appareil (tels que le modèle de matériel, la version du système d'exploitation, identificateurs de dispositif uniques, et informations sur le réseau mobile, y compris le numéro de téléphone). Google peut associer vos identifiants de périphériques ou le numéro de téléphone avec votre compte Google.
informations de connexion
Lorsque vous utilisez nos services ou du contenu de vue fournis par Google, nous recueillons automatiquement et stocker certaines informations dans les journaux de serveur. Cela comprend:
les détails de la façon dont vous avez utilisé notre service, telles que vos requêtes de recherche.
les informations du journal de téléphonie comme votre numéro de téléphone, numéro d'appel partie, les numéros de transfert, heure et la date des appels, la durée des appels, les informations de routage de SMS et les types d'appels.
adresse de protocole Internet.
des informations d'événement de dispositif tel que des collisions, l'activité du système, paramètres matériels, le type de navigateur, langue du navigateur, la date et l'heure de votre demande et l'URL de référence.
cookies qui peuvent identifier votre navigateur ou votre compte Google.
Information de Lieu
Lorsque vous utilisez les services Google, nous pouvons recueillir et traiter des informations sur votre emplacement réel. Nous utilisons diverses technologies pour déterminer l'emplacement, y compris l'adresse IP, GPS, et d'autres capteurs qui peuvent, par exemple, fournir à Google des informations sur les appareils à proximité, points d'accès Wi-Fi et des tours cellulaires.
numéros d'application uniques
Certains services comprennent un numéro d'application unique. Ce nombre et d'informations sur l'installation (par exemple, le type de système d'exploitation et version de l'application numéro) peuvent être envoyées à Google lorsque vous installez ou désinstaller ce service ou lorsque le service contacte régulièrement nos serveurs, telles que les mises à jour automatiques.
Stockage local
Nous pouvons recueillir et stocker des informations (y compris des renseignements personnels) localement sur votre appareil en utilisant des mécanismes tels que le stockage Web du navigateur (y compris HTML 5) et des caches de données d'application.
Cookies et autres technologies similaires
Nous et nos partenaires utilisent différentes technologies pour collecter et stocker des informations lorsque vous visitez un service Google, et cela peut inclure l'utilisation des cookies ou des technologies similaires pour identifier votre navigateur ou d'un dispositif. Nous utilisons également ces technologies pour collecter et stocker des informations lorsque vous interagissez avec les services que nous offrons à nos partenaires, tels que les services de publicité ou les fonctionnalités Google qui peuvent apparaître sur d'autres sites. Notre produit Google Analytics aide les entreprises et les propriétaires de sites analysent le trafic vers leurs sites Web et des applications. Lorsqu'il est utilisé conjointement avec nos services de publicité, tels que ceux qui utilisent le cookie DoubleClick, informations Google Analytics est lié, par le client Google Analytics ou Google, en utilisant la technologie Google, avec des informations sur les visites à plusieurs sites.
Les informations que nous recueillons lorsque vous êtes connecté à Google, en plus des informations que nous obtenons sur vous des partenaires, peut être associée à votre compte Google. Lorsque l'information est associée à votre compte Google, nous le traitons comme des renseignements personnels. Pour plus d'informations sur la façon dont vous pouvez accéder à, gérer ou supprimer des informations associées à votre compte Google, visitez la section de transparence et le choix de cette politique.

Les conséquences de Big Data: violations de données

D'où vient le support utilisateur moyen de PC dans tout cela grand désordre de données? Qu'advient-il de toutes ces données quand un grand service en ligne est piraté?

Plus vous partagez sur vous-même, vous partagez automatiquement des connaissances sur les personnes que vous connaissez - vos amis, et les amis de leurs amis ... Tout ce partage volontaire de données peuvent simplement vous poignarder dans le dos!

Une campagne malveillante très personnalisé a été lancé récemment, destiné aux utilisateurs LinkedIn en Europe. La charge utile de la campagne était des logiciels malveillants misent. Personnes spécifiques ont reçu des e-mails malveillants sur mesure dans différentes langues. Les informations d'identification des utilisateurs qui ont été proposés à la vente sur le marché noir après la violation méga de LinkedIn 2012 ont apparemment été mis à profit par les cyber-criminels. Peut-être est juste le début d'une série de exploits après la brèche.

Les comptes peuvent être divulgués dans d'autres façons, trop. Un autre exemple concerne frais 32 millions de comptes Twitter uniques. Un pirate va par le nom Tessa88, qui est apparemment impliqué dans les récentes violations méga de LinkedIn, Tumblr, Mon espace, prétend avoir obtenu une base de données Twitter composée de millions de comptes.

La base de données a des adresses e-mail (dans certains cas, deux par utilisateur), les noms d'utilisateur, et les mots de passe en texte clair. Tessa88 est le vendre pour 10 Bitcoins, ou approximativement $5,820. LeakedSource estime que la fuite des comptes ne sont pas en raison d'une violation de données, mais en raison de logiciels malveillants. Des dizaines de millions de personnes ont été infectées par des logiciels malveillants, et le logiciel malveillant envoyé à la maison tous les nom d'utilisateur et mot de passe sauvé des navigateurs tels que Chrome et Firefox de tous les sites, y compris Twitter.

Cependant, pas d'informations personnelles de personnes seulement est sensible aux exploits. Les nations sont, trop!

Rapid7, une entreprise de sécurité, vient de publier un vaste rapport (“Indice national d'exposition: Inférant Internet Posture sécurité par pays via le port balayage”) mis l'accent sur les nations les plus exposées aux risques d'attaques sur Internet. Les chercheurs ont constaté que les plus riches et les pays développés sont plus en danger, principalement en raison du nombre élevé de systèmes non sécurisés connectés à Internet. En savoir plus sur le la recherche de l'exposition nationale.

Comment pouvons-nous protéger nos données?

L'approche d'affaires: Logiciel de prévention de perte de données (DLP)

Via l'adoption de logiciels de prévention des pertes de données qui est conçu pour détecter et prévenir les violations de données potentielles.

logiciels DLP se fondent sur des règles métier pour classer et protéger les informations confidentielles afin que les parties non autorisées ne peuvent pas partager les données de compromettre l'organisation. Si un employé a tenté de transmettre un courriel d'affaires en dehors du domaine de l'entreprise ou télécharger un fichier d'entreprise à un service de stockage en nuage de consommation comme Dropbox, l'employé aurait la permission refusée, comme expliqué par TechTarget.

L'approche de l'utilisateur: Conseils pour la vie privée en ligne

1. Ne pas révéler des informations personnelles imprudemment, à l'inconnu, les parties non identifiées.
2. Allumez les avis de cookies dans votre navigateur Web, ou utiliser un logiciel de gestion des cookies.
3. Gardez une adresse e-mail propre, employer des techniques anti-spam. Vous voudrez peut-être de ne pas utiliser la même adresse e-mail pour tous vos comptes en ligne, bureau et mobile.
4. Évitez d'envoyer des e-mails personnels aux listes de diffusion. Séparez votre ordinateur de travail de votre personnelle. Ne pas conserver les informations sensibles sur votre machine de travail.
5. Un internaute en ligne intelligent et ne cliquez pas sur des liens aléatoires. Et éviter un contenu suspect!
6. Needs a context, dans n'importe quelle circonstance, répondre aux spammeurs.
7. Portez une attention particulière à la politique de confidentialité, même des services les plus légitimes. Se rendre compte que tout le monde veut vos renseignements personnels!
8. Rappelez-vous qu'il est à vous de décider ce que vous partagez détails sur vous-même. Si un service ou une application semble trop exigeant, juste ne l'utilisez pas. Il y a une meilleure alternative, pour sûr.
9. Ne pas sous-estimer l'importance du chiffrement!

Qu'est-ce que le chiffrement des données?

Comme expliqué par Heimdal de Andra Zaharia, le cryptage est un processus qui transforme les données ou les informations accessibles en un code inintelligible qui ne peut pas être lu ou compris par des moyens normaux. Le processus de chiffrement utilise une clé et un algorithme pour transformer les données accessibles en un morceau de l'information codée. L'auteur de la sécurité informatique a également fourni une liste des 9 outils de chiffrement gratuit à envisager.

Les références

https://www.sas.com/en_ph/insights/big-data/what-is-big-data.html
https://www.import.io/post/data-mining-vs-data-collection/
https://searchsqlserver.techtarget.com/definition/data-aggregation
https://www.eff.org/wp/effs-top-12-ways-protect-your-online-privacy

Milena Dimitrova

Un écrivain et gestionnaire de contenu inspiré qui travaille avec SensorsTechForum depuis le début du projet. Un professionnel avec 10+ années d'expérience dans la création de contenu engageant. Axé sur la vie privée des utilisateurs et le développement des logiciels malveillants, elle croit fermement dans un monde où la cybersécurité joue un rôle central. Si le bon sens n'a pas de sens, elle sera là pour prendre des notes. Ces notes peuvent se tourner plus tard dans les articles! Suivre Milena @Milenyim

Plus de messages

Suivez-moi: