“Hvis du tortur data længe nok, det vil bekende.”
– Ronald Coase, Økonom
Big data. Dataindsamling. data mining. data sammenlægning. data teknologi. databeskyttelse. bruddet. Hvad betyder alle disse store data-termer betyder, og hvordan er de relateret - til hinanden, og til os? Hvorfor skal vi bekymre sig om deres betydning? Denne artikel er et forsøg på at forklare noget (vi kunne tænke på) forbundet med dig, brugeren, data og web. Et forsøg, fordi når det kommer til store data ingen forklaring er stor nok.
Første ting først. Hvad er Big data?
Big data er et relativt nyt begreb for noget, som altid har været omkring. Udtrykket illustrerer den eksponentielle vækst og tilgængeligheden af data - struktureret og ustruktureret. Nogle eksperter endda sige, at big data er så vigtigt for moderne virksomheder som selve internettet. De er ikke forkert.
I 2001, industri analytiker Doug Laney skitseret en meget sammenhængende definition af big data, mærket de tre Vs af big data: bind, hastighed og sort.
- Bind. Mange faktorer bidrager til stigningen i datamængde. Transaktionsbaserede data gemt gennem årene. Ustrukturerede data streaming fra sociale medier. Stigende mængder af sensor og fra maskine til maskine data, der indsamles.
- Velocity. Data streaming ind på hidtil uset hastighed og skal behandles i tide. RFID-tags, sensorer og intelligent måling kører behovet for at beskæftige sig med torrents af data i nær-realtid. Reagere hurtigt nok til at beskæftige sig med data hastighed er en udfordring for de fleste organisationer.
- Bred vifte. Data, i dag kommer i alle typer af formater. Struktureret, numeriske data i traditionelle databaser. Oplysninger skabt af line-of-business-applikationer. Ustrukturerede tekstdokumenter, e-mail, video, lyd, kursticker data og finansielle transaktioner. Styring, sammenlægning og regulerer forskellige sorter af data er noget mange organisationer stadig kæmpe med.
Betyder alt dette synes abstrakte til dig? Ligesom du ikke kan forholde sig til emnet overhovedet? Tænk igen. Fordi du er en del af processen, i det mindste din digitale tilstedeværelse er. fordi store (online) data bliver genereret af alt ... og alle er forbundet via internettet. Som et resultat, big data ankommer fra forskellige kilder, og udlede relevante værdi fra det kræver optimal processorkraft og ordentlige analytics kapaciteter. Dataene er den nye mest værdifulde udveksling enhed, og er måske mere værdifuld end penge. Forretningsfolk klog, data er den nye valuta, og alle ønsker nogle, eller alle (Google, Microsoft?) af det.
Dette er, hvordan vi kommer til data mining og data sammenlægning. Når du har samlet alle de data, hvad skal du gøre med det?
Forskellen mellem Dataindsamling, Data Mining og Data Aggregation
Hvad er Dataindsamling?
Dataindsamlingen er netop, hvad det hedder det er - ophobning af information, typisk via software (dataindsamlingsværktøjer). Der er mange forskellige typer af dataindsamlingsteknikker. Hvis du følger Sensor Holly Forum regelmæssigt, du måske har læst en ting eller to om de lyssky praksis online dataindsamling, ansat af tredjemand. Dataindsamling kan forholde sig til forskellige tilgange og resultater, og afhængigt af det område, du søger ind, du vil få en anden definition af begrebet.
Men, at være en online bruger, bør du helt sikkert være interesseret i alle de måder onlinetjenester erhverve dine personlige oplysninger. Din PIO er hvad der gør dig værdifuld. Jo mere du, frit og villigt, aktie om dig selv, jo lettere er det for virksomhederne til “få” til dig.
Her er en liste over grundlæggende og obligatoriske dataindsamlingsteknikker, uden hvilken din favorit tjenester ikke ville være i stand til at eksistere:
- Småkager
- Aktive Web Indhold
- JavaScript
- Fingeraftryk af Browser (HTTP) Header
- Browser Cache
- web bugs
- IP-adresse
- Mac-adresse
Nu, en mere interaktiv skærm:
Hvad er Data Mining?
data mining, på den anden side, kræver et stykke software og en beregningsmæssige proces, der hjælper dig med at opdage mønstre i omfattende indstillinger data. Data mining er så afgørende for moderne markedsføring og forretningsudvikling, som er de investeringer. Mange virksomheder investerer i data mining - at øge deres profit og produkt positionering gennem salg prognoser. Dette er, hvordan du kommer til at forstå adfærd (og præferencer) af dine kunder, og forbedre dine fremtidige tiltag.
Data mining indebærer ansættelse af kunstig intelligens, maskinelæring, Statistik, prædiktiv analyse, og databasesystemer. Takket være data mining, du kan finde vigtige mønstre, og denne viden, som nævnt ovenfor, kan hjælpe dig med at drage konklusioner. Dataene vil ikke betyde noget for din virksomhed, hvis du ikke kan udlede værdien fra det.
Hvad med data Sammenlægning?
Data, sammenlægning er tilfældet med sammenfatte indsamlede data primært til analytiske formål. Hvorfor ville du ønsker at samle data? For at få mere indsigt om bestemte grupper af mennesker (ligesom dine kunder - nuværende og potentielle) og være i stand til at gruppere dem efter alder, erhverv, indkomst, etc. Hvorfor er denne proces værdifuldt for virksomheder? For at forbedre personalisering, og gøre dine kunder tilfredse med den service, du tilbyder.
Hvis du betaler tæt på eller nogen opmærksomhed til fortrolighedspolitik, du ved præcis, hvad vi mener.
Du er en Google-bruger, er du ikke? Er du bekendt med Googles privatlivspolitik?
Dette er et uddrag, klik på harmonika for at læse den:
Konsekvenserne af Big data: databrud
Hvor kommer den gennemsnitlige pc-bruger står i alt dette big data rod? Hvad sker der med alle disse data, når en stor online-tjeneste bliver hacket?
Jo mere du deler om dig selv, du automatisk dele viden om de mennesker, du kender - dine venner, og venner af deres venner ... Alt dette frivillige datadeling kan bare stikke dig i ryggen!
En meget personlig ondsindet kampagne blev startet for nylig, rettet mod LinkedIn-brugere i Europa. Kampagnens nyttelast var bank malware. Specifikke mennesker modtog skræddersyet ondsindede e-mails på forskellige sprog. Brugernes legitimationsoplysninger, der blev udbudt til salg på det sorte marked efter mega LinkedIn brud fra 2012 har tilsyneladende blevet sat til at bruge af cyberkriminelle. Måske dette er blot begyndelsen på en række post-brud exploits.
Konti kan lækket på andre måder, for. Et andet friske eksempel vedrører 32 million unikke Twitter-konti. En hacker går under navnet Tessa88, der tilsyneladende er involveret i de seneste mega brud på LinkedIn, tumblr, Mit rum, hævder at have opnået en Twitter-database, der består af millioner af konti.
Databasen har e-mail adresser (i nogle tilfælde to per bruger), brugernavne, og passwords almindelig tekst. Tessa88 sælger det til 10 Bitcoins, eller ca. $5,820. LeakedSource mener, at lækagen af konti er ikke på grund af et brud på datasikkerheden, men på grund af malware. Millioner af mennesker er blevet inficeret med malware, og malware sendt hjem hver gemte brugernavn og password fra browsere som Chrome og Firefox fra alle websteder, herunder Twitter.
Men, ikke kun individer personlige oplysninger er modtagelige for exploits. nationer er, for!
Rapid7, et sikkerhedsfirma, har netop udgivet en stor rapport (“Nationale Exposure Index: Udlede Internet Security Posture efter land gennem Port Scanning”) fokuseret på de nationer, for det meste er udsat for risiko for internetbaserede angreb. Forskerne fandt, at rigere og mere udviklede lande er mere truede, hovedsagelig på grund af det store antal ikke-sikrede systemer tilsluttet internettet. Læs mere om forskning national eksponering.
Hvordan kan vi sikre vores data?
Business Approach: Software Forebyggelse Data Loss (DLP)
Via vedtagelsen af Data Loss Prevention software, som er designet til at opdage og forebygge potentielle brud på datasikkerheden.
DLP software produkter er afhængige af forretningsregler til at klassificere og beskytte fortrolige oplysninger, således at uvedkommende ikke kan dele data på at kompromitere organisation. Hvis en medarbejder har forsøgt at sende en business e-mail uden for virksomhedens domæne eller uploade en corporate fil til en forbruger cloud storage service som Dropbox, medarbejderen ville blive nægtet tilladelse, som forklaret af TechTarget.
Bruger Approach: Tips til Online Privacy
- 1. Må ikke afsløre personlige oplysninger hensynsløst, til ukendt, uidentificerede parter.
- 2. Tænd cookie meddelelser i webbrowseren, eller brug cookie management software.
- 3. Hold en ren e-mail-adresse, benytte anti-spam teknikker. Du må ikke ønsker at bruge den samme e-mail-adresse til alle dine online-konti, stationære og mobile.
- 4. Undgå at sende personlige e-mails til postlister. Adskil din arbejdscomputer fra din personlige ét. Opbevar ikke følsomme oplysninger på dit arbejde maskine.
- 5. Være en smart online surfer og du ikke klikke på tilfældige links. Og undgå mistænkeligt indhold!
- 6. Gør ikke, under nogen omstændigheder, svare på spammere.
- 7. Vær meget opmærksom på privacy policy, selv til den mest legitime tjenester. Indse, at alle ønsker dine personlige oplysninger!
- 8. Husk, at det er op til dig at bestemme, hvad der detaljer du deler om dig selv. Hvis en tjeneste eller app virker for krævende, bare ikke bruge det. Der er et bedre alternativ, helt sikkert.
- 9. Må ikke undervurdere betydningen af kryptering!
Hvad er datakryptering?
Som forklaret af Heimdals Andra Zaharia, kryptering er en proces, der transformerer tilgængelige data eller information til et uforståelig kode, der ikke kan læses eller forstås på normal. Krypteringen proces bruger en nøgle og en algoritme til at vende de tilgængelige data i en kodet oplysning. Den cybersikkerhed Forfatteren har også givet en liste over 9 gratis kryptering værktøjer at overveje.
Referencer
https://www.sas.com/en_ph/insights/big-data/what-is-big-data.html
https://www.import.io/post/data-mining-vs-data-collection/
https://searchsqlserver.techtarget.com/definition/data-aggregation
https://www.eff.org/wp/effs-top-12-ways-protect-your-online-privacy