Propostas para Dissertação

Mestrados no Departamento de Informática



Consultar ficha completa de uma proposta de dissertação

proponente: José Orlando Pereira e Fábio Coelho
instituição/empresa: HASLab
tema/título: Armazenamento de Dados Colunar para Processamento Analítico
área científica:
local:
curso de mestrado: Mestrado Integrado em Engenharia Informática
descrição:
Ao longo dos últimos anos temos assistido a uma explosão na quantidade de dados gerados e/ou
coletados por empresas. Estes dados contêm frequentemente informação valiosa para a eficiência
e competitividade das empresas, mas ao mesmo tempo a extração dessa informação coloca novos
desafios em termos de escalabilidade e custo das infraestruturas de processamento de dados. Os
formatos de armazenamento de dados colunares (ou orientados à coluna) são conhecidos pelas suas
vantagens para processamento de dados analítico. Tal fez com os mesmos tenham nos últimos anos
voltado a receber a atenção da indústria, pois são uma das formas de aumentar a eficiência e
escalabilidade no processamento de dados. Formatos de armazenamento de dados colunares são caracterizados por colocarem os dados de cada
coluna de uma tabela em posições contíguas, ao contrário do que acontece na generalidade das
bases de dados (relacionais ou não), onde o armazenamento de dados é orientado à linha, sendo
cada linha de uma tabela armazenada de modo contíguo. Diferentes formatos foram propostos recentemente, como o RCFile, Parquet ou Orc, que são suportados
por diversas plataformas de processamento analítico como o Hive, Pig ou Impala. Para além da
disposição dos dados, estes formatos implementam outras otimizações, como compressão ou
índices, assim como suporte para tipos de dados complexos. Pretende-se com esta tese estudar diferentes formatos de armazenamento colunar, catalogar as suas
funcionalidades, e avaliar a adequação dos formatos a diferentes padrões de uso através da
criação de uma benchmark (ou adaptação de uma benchmark já existente). Adicionalmente,
pretende-se usar um dos formatos estudados para implementar um sistema de cache para dados
armazenados em cloud object storages (e.g. Amazon S3), que permita tornar o processamento
analítico sobre dados na cloud mais eficiente. Pretende-se ainda explorar a utilização de
protocolos de acesso direto a memória remota (RDMA) para otimizar a leitura de dados em ambiente
distribuído. Este tema insere-se no contexto de uma iniciativa de investigação conjunta com a IBM Research
Zurich. No contexto deste tema, existe a possibilidade de atribuição de bolsa, mediante
dedicação exclusiva às tarefas propostas e, entre outros fatores, o desempenho demonstrado.


Voltar...