Há vários desafios que uma startup moderna de indexação de blockchain pode enfrentar, incluindo:
Neste artigo, revemos a evolução da arquitetura tecnológica da Footprint Analytics por etapas como um estudo de caso para explorar como a pilha tecnológica Iceberg-Trino resolve os desafios dos dados em cadeia.
O Footprint Analytics indexou cerca de 22 dados públicos de blockchain e 17 NFT marketplace, 1900 projeto GameFi e mais de 100.000 coleções NFT numa camada de dados de abstração semântica. É a solução de armazém de dados blockchain mais abrangente do mundo.
Independentemente dos dados da blockchain, que inclui mais de 20 bilhões de linhas de registos de transações financeiras, o que é frequentemente consultado por analistas de dados. é diferente dos registos de entrada nos data warehouses tradicionais.
Passámos por 3 grandes upgrades nos últimos meses para satisfazer as crescentes exigências dos negócios:
No início do Footprint Analytics, usamos o Google Bigquery como nosso motor de armazenamento e consulta; o Bigquery é um ótimo produto. É extraordinariamente rápido, fácil de usar e fornece um poder aritmético dinâmico e uma sintaxe UDF flexível que nos ajuda rapidamente a fazer o trabalho.
No entanto, o Bigquery também tem uma série de problemas.
Estávamos muito interessados em alguns dos produtos OLAP que se tinham tornado muito populares. A vantagem mais atraente do OLAP é o tempo de resposta da consulta, que normalmente leva subsegundos para retornar os resultados da consulta para quantidades massivas de dados e também pode oferecer suporte a milhares de consultas simultâneas.
Escolhemos uma das melhores bases de dados OLAP, Doris, para experimentar. Este motor tem um bom desempenho. No entanto, a certa altura encontrámos alguns outros problemas em breve:
Infelizmente, não podíamos substituir o Bigquery por Doris, então tivemos de sincronizar periodicamente os dados do Bigquery com a Doris usá-los apenas como um motor de consulta. Este processo de sincronização teve uma série de problemas, um dos quais era que as gravações das atualizações se acumulavam rapidamente quando o motor OLAP estava ocupado a prestar consultas aos clientes front-end. Posteriormente, a velocidade do processo de escrita foi afetada e a sincronização demorou muito mais e às vezes até se tornou impossível de terminar.
Percebemos que o OLAP podia resolver vários problemas que enfrentamos e não podíamos tornar-se a solução chave na mão do Footprint Analytics especialmente para o pipeline de processamento de dados. O nosso problema é maior e mais complexo, e podemos dizer que o OLAP como motor de consulta só não nos bastou.
Bem-vindo à Footprint Analytics architecture 3.0, uma revisão completa da arquitetura subjacente. Redesenhámos toda a arquitetura desde o zero, para separar o armazenamento, a computação e a consulta dos dados em três partes diferentes. Tirar lições das duas arquiteturas anteriores do Footprint Analytics e aprender com a experiência de outros projetos de big data bem-sucedidos, como a Uber, Netflix e Databricks.
Primeiro, voltámos a nossa atenção para o data lake, um novo tipo de armazenamento de dados para dados estruturados e não estruturados. O data lake é perfeito para armazenamento de dados em cadeia já que os formatos de dados em cadeia variam muito de dados brutos não estruturados a dados de abstração estruturados Footprint Analytics é bem conhecido. Esperávamos usar o data lake para resolver o problema do armazenamento de dados e, idealmente, também suportaria mecanismos de computação comuns, como o Spark e a Flink, para que não fosse uma dor integrar-se com diferentes tipos de mecanismos de processamento à medida que o Footprint Analytics evolui.
O Iceberg integra-se muito bem com Spark, Flink, Trino e outros motores computacionais, e podemos escolher o cálculo mais adequado para cada uma das nossas métricas. Por exemplo
Com o Iceberg a resolver os problemas de armazenamento e computação, tivemos de pensar em como escolher um motor de consulta. Não existem muitas opções disponíveis, as alternativas que considerámos foram
Depois de decidirmos a nossa direção, fizemos um teste de desempenho na combinação Trino + Iceberg para ver se podia satisfazer as nossas necessidades e para nossa surpresa, as consultas foram incrivelmente rápidas.
Sabendo que o Presto + Colmeia é o pior comparador há anos em todos os hype OLAP, a combinação de Trino + Iceberg soou completamente a nossa mente.
Eis os resultados dos nossos testes.
caso 1: junte-se a um conjunto de dados grande
Uma tabela de 800 GB1 junta-se a outra tabela de 50 GB2 e faz cálculos de negócios complexos
Caso 2: use uma tabela grande individual para fazer uma consulta distinta
Testar sql: selecionar diferente (endereço) da tabela grupo por dia
A combinação Trino+Iceberg é 3 vezes mais rápida do que a Doris na mesma configuração.
Além disso, há outra surpresa, porque o Iceberg pode usar formatos de dados como Parquet, ORC, etc., o que vai comprimir os dados e armazená-los. O armazenamento de mesa do Iceberg demora apenas cerca de 1/5 do espaço de outros armazéns de dados O tamanho de armazenamento da mesma tabela nas três bases de dados é o seguinte:
Nota: Os testes acima são exemplos individuais que encontramos na produção real e são apenas para referência.
・Efeito de upgrade
Os relatórios dos testes de desempenho deram-nos um desempenho suficiente que a nossa equipa demorou cerca de 2 meses a concluir a migração e este é um diagrama da nossa arquitetura após o upgrade.
Desde o seu lançamento em agosto de 2021, a equipe do Footprint Analytics concluiu três upgrades arquitetônicos em menos de um ano e meio, graças ao seu desejo e determinação em trazer os benefícios da melhor tecnologia de bases de dados aos seus usuários criptografados, e uma execução sólida na implementação e atualização da sua infraestrutura e arquitetura subjacentes.
O upgrade da arquitetura Footprint Analytics 3.0 comprou uma nova experiência aos seus utilizadores, permitindo que utilizadores de diferentes origens obtenham percepções sobre utilizações e aplicações mais diversas:
Há vários desafios que uma startup moderna de indexação de blockchain pode enfrentar, incluindo:
Neste artigo, revemos a evolução da arquitetura tecnológica da Footprint Analytics por etapas como um estudo de caso para explorar como a pilha tecnológica Iceberg-Trino resolve os desafios dos dados em cadeia.
O Footprint Analytics indexou cerca de 22 dados públicos de blockchain e 17 NFT marketplace, 1900 projeto GameFi e mais de 100.000 coleções NFT numa camada de dados de abstração semântica. É a solução de armazém de dados blockchain mais abrangente do mundo.
Independentemente dos dados da blockchain, que inclui mais de 20 bilhões de linhas de registos de transações financeiras, o que é frequentemente consultado por analistas de dados. é diferente dos registos de entrada nos data warehouses tradicionais.
Passámos por 3 grandes upgrades nos últimos meses para satisfazer as crescentes exigências dos negócios:
No início do Footprint Analytics, usamos o Google Bigquery como nosso motor de armazenamento e consulta; o Bigquery é um ótimo produto. É extraordinariamente rápido, fácil de usar e fornece um poder aritmético dinâmico e uma sintaxe UDF flexível que nos ajuda rapidamente a fazer o trabalho.
No entanto, o Bigquery também tem uma série de problemas.
Estávamos muito interessados em alguns dos produtos OLAP que se tinham tornado muito populares. A vantagem mais atraente do OLAP é o tempo de resposta da consulta, que normalmente leva subsegundos para retornar os resultados da consulta para quantidades massivas de dados e também pode oferecer suporte a milhares de consultas simultâneas.
Escolhemos uma das melhores bases de dados OLAP, Doris, para experimentar. Este motor tem um bom desempenho. No entanto, a certa altura encontrámos alguns outros problemas em breve:
Infelizmente, não podíamos substituir o Bigquery por Doris, então tivemos de sincronizar periodicamente os dados do Bigquery com a Doris usá-los apenas como um motor de consulta. Este processo de sincronização teve uma série de problemas, um dos quais era que as gravações das atualizações se acumulavam rapidamente quando o motor OLAP estava ocupado a prestar consultas aos clientes front-end. Posteriormente, a velocidade do processo de escrita foi afetada e a sincronização demorou muito mais e às vezes até se tornou impossível de terminar.
Percebemos que o OLAP podia resolver vários problemas que enfrentamos e não podíamos tornar-se a solução chave na mão do Footprint Analytics especialmente para o pipeline de processamento de dados. O nosso problema é maior e mais complexo, e podemos dizer que o OLAP como motor de consulta só não nos bastou.
Bem-vindo à Footprint Analytics architecture 3.0, uma revisão completa da arquitetura subjacente. Redesenhámos toda a arquitetura desde o zero, para separar o armazenamento, a computação e a consulta dos dados em três partes diferentes. Tirar lições das duas arquiteturas anteriores do Footprint Analytics e aprender com a experiência de outros projetos de big data bem-sucedidos, como a Uber, Netflix e Databricks.
Primeiro, voltámos a nossa atenção para o data lake, um novo tipo de armazenamento de dados para dados estruturados e não estruturados. O data lake é perfeito para armazenamento de dados em cadeia já que os formatos de dados em cadeia variam muito de dados brutos não estruturados a dados de abstração estruturados Footprint Analytics é bem conhecido. Esperávamos usar o data lake para resolver o problema do armazenamento de dados e, idealmente, também suportaria mecanismos de computação comuns, como o Spark e a Flink, para que não fosse uma dor integrar-se com diferentes tipos de mecanismos de processamento à medida que o Footprint Analytics evolui.
O Iceberg integra-se muito bem com Spark, Flink, Trino e outros motores computacionais, e podemos escolher o cálculo mais adequado para cada uma das nossas métricas. Por exemplo
Com o Iceberg a resolver os problemas de armazenamento e computação, tivemos de pensar em como escolher um motor de consulta. Não existem muitas opções disponíveis, as alternativas que considerámos foram
Depois de decidirmos a nossa direção, fizemos um teste de desempenho na combinação Trino + Iceberg para ver se podia satisfazer as nossas necessidades e para nossa surpresa, as consultas foram incrivelmente rápidas.
Sabendo que o Presto + Colmeia é o pior comparador há anos em todos os hype OLAP, a combinação de Trino + Iceberg soou completamente a nossa mente.
Eis os resultados dos nossos testes.
caso 1: junte-se a um conjunto de dados grande
Uma tabela de 800 GB1 junta-se a outra tabela de 50 GB2 e faz cálculos de negócios complexos
Caso 2: use uma tabela grande individual para fazer uma consulta distinta
Testar sql: selecionar diferente (endereço) da tabela grupo por dia
A combinação Trino+Iceberg é 3 vezes mais rápida do que a Doris na mesma configuração.
Além disso, há outra surpresa, porque o Iceberg pode usar formatos de dados como Parquet, ORC, etc., o que vai comprimir os dados e armazená-los. O armazenamento de mesa do Iceberg demora apenas cerca de 1/5 do espaço de outros armazéns de dados O tamanho de armazenamento da mesma tabela nas três bases de dados é o seguinte:
Nota: Os testes acima são exemplos individuais que encontramos na produção real e são apenas para referência.
・Efeito de upgrade
Os relatórios dos testes de desempenho deram-nos um desempenho suficiente que a nossa equipa demorou cerca de 2 meses a concluir a migração e este é um diagrama da nossa arquitetura após o upgrade.
Desde o seu lançamento em agosto de 2021, a equipe do Footprint Analytics concluiu três upgrades arquitetônicos em menos de um ano e meio, graças ao seu desejo e determinação em trazer os benefícios da melhor tecnologia de bases de dados aos seus usuários criptografados, e uma execução sólida na implementação e atualização da sua infraestrutura e arquitetura subjacentes.
O upgrade da arquitetura Footprint Analytics 3.0 comprou uma nova experiência aos seus utilizadores, permitindo que utilizadores de diferentes origens obtenham percepções sobre utilizações e aplicações mais diversas: