Dados brutos – Wikipédia, a enciclopédia livre

As duas colunas à direita da coluna mais à esquerda, nesta tabela computadorizada, são dados brutos.

Dados brutos ou dados primários (do inglês, raw data ou primary data), são dados (por exemplo, números, leituras de instrumentos, figuras etc.) coletados de uma fonte. No contexto dos exames, os dados brutos podem ser descritos como uma contagem bruta.

Como ilustração, se um cientista instala um termômetro computadorizado que registra a temperatura de uma mistura química em um tubo de ensaio a cada minuto, a lista de leituras de temperatura para cada minuto, impressa em uma planilha ou visualizada na tela do computador, são "dados brutos". Os dados brutos não foram submetidos a processamento, "limpeza" pelos pesquisadores para remover discrepâncias, erros óbvios de leitura de instrumentos ou erros de entrada de dados ou qualquer análise (por exemplo, determinar aspectos de tendência central, como resultado médio ou mediano). Além disso, os dados brutos não foram sujeitos a nenhuma outra manipulação por um programa de software ou por um pesquisador, analista ou técnico humano. Também é referido como dados primários. Dados brutos é um termo relativo (veja dados), porque mesmo depois que os dados brutos foram "limpos" e processados por uma equipe de pesquisadores, outra equipe pode considerar esses dados processados como "dados brutos", para outra etapa da pesquisa. Os dados brutos podem ser inseridos em um programa de computador ou usados em procedimentos manuais, como análise de estatísticas de uma pesquisa. O termo "dados brutos" pode se referir aos dados binários em dispositivos de armazenamento eletrônico, como unidades de disco rígido (também chamados de "dados de baixo nível").

Geração de dados

[editar | editar código-fonte]

Os dados têm duas maneiras de serem criados ou construídos. O primeiro é o que é chamado de 'dados capturados'[1] e é encontrado através de investigação ou análise intencional. O segundo é chamado de 'dados de exaustão'[1] e é geralmente coletado por máquinas ou terminais como uma função secundária. Por exemplo, caixas registradoras, smartphones e velocímetros cumprem uma função principal, mas podem coletar dados como uma tarefa secundária. Dados exaustivos geralmente são muito grandes ou de pouca utilidade para serem processados e tornam-se "transitórios"[1] ou jogados fora.

Em computação, os dados brutos podem ter os seguintes atributos: podem conter erros humanos, de máquina ou de instrumento, podem não ser validados; pode estar em diferentes formatos de área (coloquial); não codificado ou não formatado; ou algumas entradas podem ser "suspeitas" (por exemplo, discrepantes), exigindo confirmação ou citação. Por exemplo, uma planilha de entrada de dados pode conter datas como dados brutos de várias formas: "31 de janeiro de 1999", "31/01/1999", "31/1/99", "31 de janeiro" ou "hoje". Uma vez capturados, esses dados brutos podem ser processados armazenados como um formato normalizado, talvez uma data juliana, para facilitar a interpretação por computadores e humanos durante o processamento posterior. Dados brutos (às vezes chamados coloquialmente de "fontes" ou "ovais", estes são uma referência aos dados "não cozidos", ou seja, "não processados", como um ovo cru) são os dados introduzidos no processamento. É feita uma distinção entre dados e informações, no sentido de que as informações são o produto final do processamento de dados. Os dados brutos que passaram pelo processamento às vezes são referidos como dados "cozidos" em um sentido coloquial. Embora os dados brutos tenham o potencial de serem transformados em "informação", extração, organização, análise e formatação para apresentação, necessário antes que os dados brutos possam ser transformados em informações utilizáveis.

Por exemplo, um terminal de ponto de venda (terminal de PDV, uma caixa registradora computadorizada) em um supermercado movimentado coleta enormes volumes de dados brutos todos os dias sobre as compras dos clientes. No entanto, essa lista de itens de mercearia e seus preços, bem como a hora e a data da compra não fornecem muitas informações até serem processadas. Uma vez processados e analisados por um programa de software ou mesmo por um pesquisador usando caneta, papel e calculadora, esses dados brutos podem indicar os itens específicos que cada cliente compra, quando os compra e a que preço; também, um analista ou gerente poderia calcular a média de vendas totais por cliente ou a despesa média por dia da semana por hora. Esses dados processados e analisados fornecem informações para o gerente, que o gerente pode usar para ajudá-lo a determinar, por exemplo, quantos caixas contratar e em que horários. Tais informações podem se tornar dados para processamento adicional, por exemplo, como parte de uma campanha de marketing preditiva. Como resultado do processamento, os dados brutos às vezes acabam sendo colocados em um banco de dados, o que permite que os dados brutos se tornem acessíveis para processamento e análise adicionais de várias maneiras diferentes.

Tim Berners-Lee (inventor da World Wide Web) argumenta que o compartilhamento de dados brutos é importante para a sociedade. Inspirado por um post de Rufus Pollock, da Open Knowledge Foundation, sua chamada à ação é "Raw Data Now", o que significa que todos devem exigir que governos e empresas compartilhem os dados que coletam como dados brutos. Ele ressalta que "os dados direcionam uma grande quantidade do que acontece em nossas vidas ... porque alguém pega os dados e faz algo com eles". Para Berners-Lee, é essencialmente desse compartilhamento de dados brutos que surgem os avanços da ciência. Os defensores dos dados abertos argumentam que, uma vez que cidadãos e organizações da sociedade civil tenham acesso a dados de empresas e governos, isso permitirá que cidadãos e ONGs façam sua própria análise dos dados, o que pode capacitar as pessoas e a sociedade civil. Por exemplo, um governo pode alegar que suas políticas estão reduzindo a taxa de desemprego, mas um grupo de defesa da pobreza pode ser capaz de fazer com que os economistas de sua equipe façam sua própria análise dos dados brutos, o que pode levar esse grupo a tirar conclusões diferentes sobre os dados conjunto.

Leitura adicional

[editar | editar código-fonte]

Referências

  1. a b c Kitchin, Rob (2014). The Data Revolution. United States: Sage. 6 páginas