“Se você torturar os dados por tempo suficiente, ele vai confessar.”
– Ronald Coase, Economista
Big Data. Coleção de dados. Mineração de dados. agregação de dados. tecnologia de dados. Dados privados. Violação de dados. O que todos esses termos de dados grandes significam e como elas estão relacionadas - um para o outro, e para nós? Por que devemos nos preocupar com o seu significado? Este artigo é uma tentativa de explicar nada (poderíamos pensar) associado com você, o usuário, de dados e web. Uma tentativa, porque quando se trata de big data nenhuma explicação é grande o suficiente.
Primeiras coisas primeiro. O que é Big Data?
Big data é um termo relativamente novo para algo que sempre foi em torno de. O termo ilustra o crescimento exponencial e disponibilidade dos dados - estruturados e não estruturados. Alguns especialistas chegam a dizer que big data é tão importante para as empresas modernas como a própria Internet. Eles não estão errados.
No 2001, analista da indústria Doug Laney esboçou uma definição muito coerente de dados grandes, rotulados os três Vs de big data: volume, velocidade e variedade.
- Volume. Muitos fatores contribuem para o aumento do volume de dados. dados baseados em transações armazenados ao longo dos anos. dados não estruturados em streaming de mídia social. quantidades de dados do sensor e de máquina para máquina aumentando a ser recolhidos.
- Velocidade. Os dados são em streaming a uma velocidade sem precedentes e deve ser tratada em tempo hábil. As etiquetas RFID, sensores e os contadores inteligentes estão impulsionando a necessidade de lidar com torrentes de dados em tempo quase real. Reagindo rapidamente o suficiente para lidar com velocidade de dados é um desafio para a maioria das organizações.
- Variedade. Os dados de hoje vem em todos os tipos de formatos. Estruturada, os dados numéricos em bancos de dados tradicionais. Informações criado a partir de aplicativos de linha de negócios. documentos de texto não estruturados, o email, vídeo, auditivo, dados de cotações da bolsa e transações financeiras. Gerenciando, fundindo e governar diferentes variedades de dados é algo que muitas organizações ainda lutam com.
Faz tudo isso parecer abstratos para você? Como se você não pode se relacionar com o tema em tudo? Pense de novo. Porque você é parte do processo, pelo menos, a sua presença digital é. porque grande (conectados) os dados estão sendo gerados por tudo ... e todos conectados através da Web. Como um resultado, big data está chegando de várias fontes, e derivando valor relevante do que exige poder de processamento otimizado e capacidades analíticas adequadas. Data é a nova unidade de troca mais valiosa, e é talvez mais valioso do que dinheiro. Em termos de negócios, dados é a nova moeda, e todo mundo quer um pouco, ou tudo (Google, Microsoft?) disso.
É assim que chegamos à mineração e agregação de dados. Depois de coletar todos os dados, o que você deve fazer com isso?
A diferença entre coleta de dados, Mineração de dados e agregação de dados
O que é coleta de dados?
A coleta de dados é exatamente o que afirma ser - o acúmulo de informações, normalmente via software (ferramentas de coleta de dados). Existem muitos tipos diferentes de técnicas de coleta de dados. Se você seguir SensorsTechForum regularmente, você pode ter lido uma coisa ou duas sobre as práticas obscuras da coleta de dados on-line, empregado por terceiros. A coleta de dados pode estar relacionada a diferentes abordagens e resultados, e dependendo do campo que você está procurando, você receberá uma definição diferente do termo.
Contudo, ser um usuário online, você definitivamente deve estar interessado em todas as maneiras pelas quais os serviços on-line adquirem suas informações de identificação pessoal. Seu IPI é o que o torna valioso. Quanto mais você, livre e voluntariamente, compartilhe sobre você, mais fácil é para as empresas “obter” para você.
Aqui está uma lista de técnicas básicas e obrigatórias de coleta de dados, sem o qual seus serviços favoritos não poderiam existir:
- Biscoitos
- Conteúdo ativo da Web
- JavaScript
- Impressão digital do navegador (HTTP) Cabeçalho
- Cache do navegador
- Webbugs
- Endereço de IP
- Endereço MAC
Agora, uma exibição mais interativa:
O que é mineração de dados?
Mineração de dados, por outro lado, requer um software e um processo computacional que ajuda a descobrir padrões em extensas configurações de dados. A mineração de dados é tão crucial para o marketing e desenvolvimento de negócios modernos quanto os investimentos. Muitas empresas investem na mineração de dados - para aumentar seu lucro e posicionamento do produto através da previsão de vendas. É assim que você consegue entender o comportamento (e preferências) dos seus clientes, e melhore suas futuras abordagens.
A mineração de dados envolve o emprego de inteligência artificial, aprendizado de máquina, Estatisticas, análise preditiva, e sistemas de banco de dados. Graças à mineração de dados, você pode encontrar padrões importantes, e esse conhecimento, como acima mencionado, pode ajudá-lo a tirar conclusões. Os dados não significarão nada para a sua empresa se você não puder obter valor deles.
E a agregação de dados?
A agregação de dados é o caso de resumir os dados coletados principalmente para fins analíticos. Por que você deseja agregar dados? Para obter mais informações sobre grupos específicos de pessoas (como seus clientes - atuais e potenciais) e poder agrupá-los por idade, profissão, renda, etc. Por que esse processo é valioso para as empresas? Para melhorar a personalização, e faça seus clientes felizes com o serviço que você oferece.
Se você prestar atenção ou alguma atenção às políticas de privacidade, você sabe exatamente o que queremos dizer.
Você é um usuário do Google, você não é? Você está familiarizado com Política de Privacidade do Google?
Este é um trecho, clique no acordeão para lê-lo:
As consequências do Big Data: Violações de dados
Onde fica o usuário médio de PC em toda essa bagunça de big data?? O que acontece com todos esses dados quando um grande serviço online é hackeado?
Quanto mais você compartilha sobre você, você automaticamente compartilha conhecimento sobre as pessoas que conhece - seus amigos, e os amigos de seus amigos ... Todo esse compartilhamento voluntário de dados pode simplesmente apunhalá-lo pelas costas!
Uma campanha maliciosa altamente personalizada foi iniciada recentemente, voltado para usuários do LinkedIn na Europa. A carga útil da campanha era malware bancário. Pessoas específicas receberam e-mails maliciosos personalizados em diferentes idiomas. As credenciais dos usuários que foram oferecidas para venda no mercado negro após a mega violação do LinkedIn de 2012 aparentemente foram usados por criminosos cibernéticos. Talvez este seja apenas o começo de uma série de exploits pós-violação.
As contas podem vazar de outras maneiras, também. Outro novo exemplo diz respeito 32 milhões de contas únicas no Twitter. Um hacker que vai pelo nome Tessa88, que aparentemente está envolvido com as recentes mega violações do LinkedIn, Tumblr, Meu espaço, está alegando ter obtido um banco de dados Twitter que consiste de milhões de contas.
O banco de dados possui endereços de e-mail (em alguns casos, dois por usuário), usernames, e senhas de texto simples. Tessa88 está vendendo para 10 Bitcoins, ou aproximadamente $5,820. O LeakedSource acredita que o vazamento de contas não é devido a uma violação de dados, mas devido a malware. Dezenas de milhões de pessoas foram infectadas por malware, e o malware enviava para casa cada nome de usuário e senha salvos em navegadores como Chrome e Firefox de todos os sites, incluindo Twitter.
Contudo, não apenas as informações pessoais dos indivíduos são suscetíveis a explorações. Nações são, também!
Rapid7, uma empresa de segurança, acaba de lançar um vasto relatório (“Índice de Exposição Nacional: Inferir postura de segurança na Internet por país por meio da varredura de portas”) focado nas nações mais expostas a riscos de ataques baseados na Internet. Os pesquisadores descobriram que os países mais ricos e mais desenvolvidos estão mais ameaçados, principalmente por causa do grande número de sistemas inseguros conectados à Internet. Leia mais sobre o pesquisa de exposição nacional.
Como podemos proteger nossos dados?
A Abordagem de Negócios: Software de prevenção de perda de dados (DLP)
Através da adoção de software de prevenção de perda de dados, que é projetado para detectar e prevenir possíveis violações de dados.
Os produtos de software DLP dependem de regras de negócios para classificar e proteger as informações confidenciais, de modo que partes não autorizadas não possam compartilhar dados para comprometer a organização. Se um funcionário tentou encaminhar um e-mail comercial para fora do domínio corporativo ou fazer upload de um arquivo corporativo para um serviço de armazenamento em nuvem do consumidor como o Dropbox, o funcionário teria permissão negada, conforme explicado pela TechTarget.
A Abordagem do Usuário: Dicas para privacidade online
- 1. Não revele informações pessoais de forma imprudente, para o desconhecido, partes não identificadas.
- 2. Ative os avisos de cookies em seu navegador da web, ou usar software de gerenciamento de cookies.
- 3. Mantenha um endereço de e-mail limpo, empregar técnicas anti-spam. Você pode não querer usar o mesmo endereço de e-mail para todas as suas contas online, desktop e celular.
- 4. Evite enviar e-mails pessoais para listas de mala direta. Separe o seu computador de trabalho do seu pessoal. Não guarde informações confidenciais em sua máquina de trabalho.
- 5. Seja um surfista online inteligente e não clique em links aleatórios. E evite conteúdo suspeito!
- 6. Não, em qualquer circunstância, responder a spammers.
- 7. Preste muita atenção à política de privacidade, mesmo para o mais legítimo dos serviços. Perceba que todo mundo quer suas informações pessoais!
- 8. Lembre-se de que cabe a você decidir quais detalhes você compartilha sobre você. Se um serviço ou aplicativo parecer muito exigente, apenas não use. Existe uma alternativa melhor, com certeza.
- 9. Não subestime a importância da criptografia!
O que é criptografia de dados?
Conforme explicado por Heimdal's Andra Zaharia, criptografia é um processo que transforma dados ou informações acessíveis em um código ininteligível que não pode ser lido ou compreendido por meios normais. O processo de criptografia usa uma chave e um algoritmo para transformar os dados acessíveis em uma informação codificada. O autor da segurança cibernética também forneceu uma lista de 9 ferramentas de criptografia grátis considerar.
Referências
https://www.sas.com/en_ph/insights/big-data/what-is-big-data.html
https://www.import.io/post/data-mining-vs-data-collection/
https://searchsqlserver.techtarget.com/definition/data-aggregation
https://www.eff.org/wp/effs-top-12-ways-protect-your-online-privacy