Arquivos Data Warehouse - Tech News Paraná

Por David Akka * no portal CIO

Desde que os sistemas de Business Intelligence (BI) evoluíram para data warehouses, as empresas têm conseguido analisar e agir com quantidades cada vez maiores de informações que possuem em seus bancos de dados. No entanto, a tendência atual em direção ao Big Data e análises em tempo real faz os sistemas de BI parecerem dinossauros: os dados de ontem são velhos demais para serem relevantes, fazendo com que as empresas percam oportunidades quando confrontadas com concorrentes cada vez mais ágeis.

A tecnologia de dados in-memory está tornando esse mundo uma realidade, sendo capaz de lidar com dados tradicionais e dados não estruturados, porém, que mudanças precisam ser feitas? Será possível integrar sistemas de BI legados no contexto do Big Data?

Como chegamos até aqui
A história do BI está relacionada com a escala, precisão (descritiva ou preditiva), facilidade e escopo com os quais tentamos analisar os dados. Antes da chegada dos sistemas de BI, aplicativos corporativos tinham seus próprios bancos de dados, que continham todas as informações que eles podiam acessar para realizar suas funções e era possível obter informações úteis sobre o negócio a partir desses dados. Por exemplo, um banco de dados de clientes pré-BI continha informações que poderiam ser usadas para segmentar a base de clientes e orientar o marketing, as vendas e os investimentos de P&D.

No entanto, esses sistemas eram ilhados porque não eram ligados a outros sistemas: eles não eram capazes de compartilhar bancos de dados e, apesar de cada sistema manter dados importantes, seu valor era limitado. O problema agravou-se conforme as empresas adquiriam mais sistemas de TI ligados a vários departamentos, tais como CRM, ERP, RH, finanças e atendimento ao cliente. Fusões e aquisições fizeram as empresas ficarem com vários sistemas para cumprir os mesmos requisitos funcionais, mas agindo contra um subconjunto de dados totais da empresa para a função específica. Nesse ponto, o potencial analítico diminuiu, pois a complexidade de se obter um único ponto de vista preciso dos dados aumentou com cada sistema novo.

Foi nesse momento que o conceito de Data Warehouse de BI surgiu, como um repositório único para todos os dados da empresa, onde os dados podem ser organizados, analisados e trabalhados de forma útil pela empresa. O desafio que as empresas enfrentam hoje decorre da maneira pela qual essa visão foi implantada e das ferramentas utilizadas.

Ferramentas de extração, transformação e carregamento (ETL) foram desenvolvidas para lidar com a movimentação de dados dos sistemas corporativos para Data Warehouses, inclusive para tornar os dados legíveis e mantê-los atualizados, e os sistemas de orquestração de processos de negócios também são capazes de conectar dados com Data Warehouses da mesma forma. Motores de mineração de dados realizavam a análise dos dados no data warehouse, e ferramentas de relatórios eram ligadas à mineração de dados para fornecer um resultado de fácil compreensão.

Essas ferramentas foram capazes de fornecer às empresas dados históricos precisos e completos, além de certo grau de previsibilidade, com a extrapolação de tendências passadas. No entanto, o Big Data já começa a ganhar uma aceitação generalizada, e isso muda completamente a maneira com que usamos o BI.

Por que o Big Data é diferente?
Big Data na verdade é um termo que pode enganar, já que ao ouvir esse nome imagina-se bancos de dados maiores e mais complexos, mas a realidade é que Big Data se refere a um tipo muito diferente de dados: trata-se de dados não estruturados, que não podem ser mapeados em um banco de dados relacional tradicional. Big Data é caracterizado pelos “Quatro Vs”: volume, velocidade, variedade e valor.

– Volume refere-se ao fato de que podemos gerar uma enorme quantidade de dados, gerando quantidades cada vez maiores. Por exemplo, smartphones contêm um conjunto de sensores que produzem dados, os quais podem ser consultados para uso em análises, como em sistemas de GPS. Conforme o número, complexidade e exploração de smartphones aumentam (mais smartphones produzindo mais dados e usuários que sabem como utilizá-los), o volume de dados produzidos também aumentará.

– Velocidade significa que os dados mudam rapidamente, por isso, em vez de dados de BI tradicionais sobre pedidos de clientes que podem ser manipulados em lotes, nós temos dados de localização de smartphones, que ficam desatualizados em minutos ou mesmo segundos, caso nosso objetivo seja enviar uma oferta específica a um cliente em uma rua.

– Variedade refere-se aos vários tipos de dados e fontes, de bancos de dados a objetos de áudio e vídeo (aos quais podemos anexar contexto e se tornam parte da análise) e quantidades crescentes de dados móveis e sociais não estruturados.

– Valor é exatamente o que o nome diz: quanto mais obtemos ao analisar o Big Data, mais valor podemos extrair dele.

Isto significa que estamos saindo de um modelo em que os data warehouses são a “única fonte da verdade” para uma empresa e nos movendo em direção a uma visão mais descentralizada, onde os bancos de dados são enriquecidos com informações em tempo real e não relacionais. Há apenas um problema: como podemos fazer nossas ferramentas de BI existentes trabalharem nesse novo contexto?

Ferramentas analíticas e de data warehousing existentes são projetadas para executar consultas predefinidas ou ad-hoc em grandes bancos de dados, mas a análise preditiva e os dados em tempo real exigem ferramentas diferentes, portanto nossas ferramentas existentes teriam de ser reprogramadas para que possam trabalhar com eles.

Como podemos acolher o Big Data?
Tudo isso leva a uma questão fundamental: o Big Data e seus dados in-memory associados estão aposentando as ferramentas de BI tradicionais? Qualquer tentativa de responder a essa questão só irá trazer mais questões: devemos estender a integração corporativa existente para as novas ferramentas? A computação In-Memory irá substituir o ETL e o processamento em lotes? As melhorias do ETL, como a integração com base em processos, continuam a liderar o caminho nesse novo contexto? Ou será que precisamos de uma plataforma inteligente que possa integrar todos estes elementos?

Não quero tentar responder a estas questões aqui, pois isso é assunto para outro dia. Em vez disso, eu gostaria de mostrar a diferença que o novo contexto pode trazer e deixar que vocês pensem sobre o que isso pode trazer para sua empresa.

Imagine uma loja de rua, como a House of Fraser: no modelo de BI tradicional, eles desejariam guardar seu histórico de transações e, para isso, iriam oferecer um cartão de fidelidade. Passar esse cartão toda vez que você fizer uma compra iria possibilitá-los monitorar o que você comprou e colocar estes dados em um data warehouse ou cubo, onde os dados poderiam ser cuidadosamente segmentados para fornecer informações sobre quais promoções poderiam ser oferecidas para você. O problema é que esta é uma solução reativa, tentando fazer uma extrapolação com base em uma atividade passada, ela não oferece uma experiência muito personalizada, além disso, os clientes gostam cada vez menos de cartões de fidelidade.

Em um contexto In-Memory do Big Data, o quadro é muito diferente. O lojista não precisa persuadir o cliente a fazer um cartão de fidelidade, pois eles podem rastrear suas compras pelo seu número de cartão de crédito. Eles sabem para qual tipo de compras aquele cartão específico é usado e podem rastrear as diferenças entre as diversas compras. Por exemplo, se você faz duas compras semanais, mas comprou um cinto na primeira compra, o sistema poderia, de forma inteligente, oferecer a você uma oferta em que você possa estar interessado. Não outro cinto (você já tem um), mas, por exemplo, uma oferta de meias que as pessoas que também compraram esse cinto usam.

Para criar e personalizar essa promoção, seria possível utilizar dados sobre as pessoas perto de você, dados demográficos semelhantes e o que as pessoas que compraram o mesmo item disseram sobre ele nas mídias sociais. Quem recomendou a marca, ela foi destaque em algum jornal ou revista? Não é apenas a quantidade de dados que pode ser ampliada, eles precisam também abranger dados estruturados e não estruturados, e o tipo de informação que antes seria difícil de coletar ou analisar agora é exatamente o que vai convencer o cliente a comprar.

Esta promoção personalizada é possível, em tempo real, sem cubos de dados ou Data Warehouses, sem BI e apenas tendo suas compras e as compras de todos os outros clientes na memória. “Em tempo real” também significa que as ofertas não precisam esperar até que você esteja no caixa (momento em que o cliente para de pensar em fazer compras e passa a pensar em ir para casa e fica, portanto, menos receptivo). Em vez disso, combinando a oferta com aqueles scanners portáteis que são cada vez mais populares em supermercados, você poderia receber uma oferta personalizada assim que você pegar um item ou passar em um corredor. Se você já recebeu suas compras em casa e lembrou depois de outra coisa que você precisava, imagine como seria útil receber um lembrete rápido sobre seus itens mais comprados.

(*) David Akka é CEO da Magic Software UK

Fonte: www.businessintelligencbi.inf.br

Por Aderlan Rodrigues
www.qway.com.br

Primeiro, uma breve definição de cada uma:

Data Warehouse

Um data warehouse (ou armazém de dados, ou depósito de dados no Brasil) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão. (Wikipédia)

Business Intelligence

O termo Business Intelligence (BI), pode ser traduzido como Inteligência de negócios, refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. (Wikipédia)

Data Mining

Prospecção de dados (português europeu) ou mineração de dados (português brasileiro) (também conhecida pelo termo inglês data mining) é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados. (Wikipédia)

Apesar das definições acima, é comum haver confusão no uso e na interpretação desses termos, pois a aplicabilidade delas passa pelos mesmos processos ou por processos semelhantes.

O DW, como está na definição, nada mais é do que um depósito de dados, projetado especialmente para organizar os dados de tal forma que facilite e viabilize o acesso a informações, o que não é possível no modelo tradicional de armazenamento de dados.

Quando um sistema é construído, o objetivo da maioria é facilitar a coleta e armazenamento de dados do nosso dia a dia, porém o modelo tradicional usado privilegia a gravação e leitura, sem se preocupar com a geração de informações e conhecimento.

Já o BI, são técnicas usadas em conjunto com o DW para analisar os dados. Nesse instante, você deve está pensando: Mas o BI não precisa do DW para funcionar, existem diversas ferramentas de BI que trabalham sozinhas, não preciso de um DW para fazer BI. Você não está errado, a não ser por um detalhe, todas as ferramentas de BI, quando não usam um data warehouse usam uma metodologia própria para organizar e analisar os dados, e muitas vezes, usam o data warehouse juntamente com essa metodologia. Agora lhe pergunto, se os softwares de BI usam metodologias próprias para coletar, organizar e analisar os dados, eles não estão criando um DW? A resposta é sim. Seja usando um data warehouse externo ou sua própria metodologia, as ferramentas de BI nada mais são do que técnicas automatizadas para geração de informações. Essas técnicas podem ser usadas diretamente nos seus dados sem nenhum problema, estejam eles, onde estiverem. Mas claro que uma boa ferramenta ajuda, e muito, esse processo.

Mas, e o data mining? Esse, com certeza é a “menina dos olhos” de todo gestor, e sem dúvida, deve mesmo ser, pois o DM é um conjunto de técnicas usadas na descoberta de padrões. Possibilitando descobrir informações e gerar conhecimento relacionado aos dados onde essas técnicas são aplicadas. Como existem diversas técnicas, conhecidas como algoritmos, o data mining é sem dúvida o mais complexo, exigindo um conhecimento elevado de quem faz uso, tanto na preparação dos dados, quanto na interpretação das informações.

Em resumo, dados geram informação, informações geram conhecimento, logo, data warehouse armazena os dados de tal forma a facilitar a geração de informações. Business intelligence são as técnicas usadas na geração e análise dessas informações e data mining são as técnicas usadas para a descoberta de informações e conhecimentos.

Data Mining é a possibilidade de enxergar algo nunca imaginado, descobrir padrões e tendências.

Dados In-Memory: o fim do Business Intelligence?

Data Warehouse, Business Intelligence e Data Mining: qual a diferença?