Início TECNOLOGIA Dos registros aos insights: o avanço da IA ​​redefinindo a observabilidade

Dos registros aos insights: o avanço da IA ​​redefinindo a observabilidade

13
0

Apresentado pela Elástica


Logs definidos para se tornarem a principal ferramenta para encontrar o “porquê” no diagnóstico de incidentes de rede

Os ambientes de TI modernos têm um problema de dados: há muitos deles. As organizações que precisam gerenciar o ambiente de uma empresa enfrentam cada vez mais o desafio de detectar e diagnosticar problemas em tempo real, otimizar o desempenho, melhorar a confiabilidade e garantir a segurança e a conformidade — tudo isso dentro de orçamentos limitados.

O cenário moderno de observabilidade possui muitas ferramentas que oferecem uma solução. A maioria gira em torno de equipes de DevOps ou engenheiros de confiabilidade de sites (SREs) que analisam logs, métricas e rastreamentos para descobrir padrões e descobrir o que está acontecendo na rede e diagnosticar por que ocorreu um problema ou incidente. O problema é que o processo cria uma sobrecarga de informações: um cluster Kubernetes sozinho pode emitir de 30 a 50 gigabytes de logs por dia, e padrões de comportamento suspeitos podem passar despercebidos aos olhos humanos.

“É tão anacrónico agora, no mundo da IA, pensar que apenas os humanos observam a infra-estrutura,” diz Ken Exner, diretor de produtos da Elastic. “Odeio dizer isso a você, mas as máquinas são melhores do que os seres humanos na correspondência de padrões.

O foco de todo o setor na visualização de sintomas força os engenheiros a procurar respostas manualmente. O crucial “por que” estão enterrados em registros, mas como contêm enormes volumes de dados não estruturados, a indústria tende a usá-los como ferramenta de último recurso. Isso forçou as equipes a fazer concessões dispendiosas: gastar incontáveis ​​horas construindo pipelines de dados complexos, descartar dados de log valiosos e arriscar lacunas críticas de visibilidade ou registrar e esquecer.

Elastic, a Search AI Company, lançou recentemente um novo recurso de observabilidade chamado Streams, que visa se tornar o principal sinal para investigações, pegando logs barulhentos e transformando-os em padrões, contexto e significado.

O Streams usa IA para particionar e analisar automaticamente logs brutos para extrair campos relevantes e reduzir bastante o esforço exigido dos SREs para tornar os logs utilizáveis. Os streams também revelam automaticamente eventos significativos, como erros críticos e anomalias de logs ricos em contexto, fornecendo aos SREs avisos antecipados e uma compreensão clara de suas cargas de trabalho, permitindo-lhes investigar e resolver problemas com mais rapidez. O objetivo final é mostrar as etapas de correção.

“A partir de dados brutos, volumosos e confusos, o Streams cria automaticamente uma estrutura, colocando-a em um formato utilizável, alerta automaticamente sobre problemas e ajuda a remediá-los,” Exner diz. “Essa é a magia dos Streams.”

Um fluxo de trabalho interrompido

Streams altera um processo de observabilidade que alguns dizem estar quebrado. Normalmente, os SREs configuram métricas, logs e rastreamentos. Em seguida, eles configuram alertas e objetivos de nível de serviço (SLOs) — muitas vezes regras codificadas para mostrar onde um serviço ou processo ultrapassou um limite ou onde um padrão específico foi detectado.

Quando um alerta é acionado, ele aponta para a métrica que mostra uma anomalia. A partir daí, os SREs analisam um painel de métricas, onde podem visualizar o problema e comparar o alerta com outras métricas, ou CPU com memória e E/S, e começar a procurar padrões.

Eles podem então precisar examinar um rastreamento e examinar as dependências upstream e downstream em todo o aplicativo para investigar a causa raiz do problema. Depois de descobrirem o que está causando o problema, eles acessam os logs desse banco de dados ou serviço para tentar depurar o problema.

Algumas empresas simplesmente procuram adicionar mais ferramentas quando as atuais se mostram ineficazes. Isso significa que os SREs estão pulando de ferramenta em ferramenta para se manterem atualizados sobre o monitoramento e a solução de problemas em sua infraestrutura e aplicativos.

“Você está navegando em diferentes ferramentas. Você está contando com um ser humano para interpretar essas coisas, observar visualmente o relacionamento entre os sistemas em um mapa de serviço, observar visualmente os gráficos em um painel de métricas, para descobrir qual e onde está o problema, ” Exner diz. “Mas a IA automatiza esse fluxo de trabalho.”

Com Streams alimentados por IA, os logs não são usados ​​apenas de forma reativa para resolver problemas, mas também para processar proativamente possíveis problemas e criar alertas ricos em informações que ajudam as equipes a ir direto para a solução de problemas, oferecendo uma solução para remediação ou até mesmo corrigindo o problema completamente, antes de notificar automaticamente a equipe de que ele foi resolvido.

“Acredito que os logs, o conjunto mais rico de informações, o tipo de sinal original, começarão a impulsionar grande parte da automação que um engenheiro de confiabilidade de serviço normalmente faz hoje, e faz muito manualmente,” ele acrescenta. “Um ser humano não deveria estar nesse processo, onde eles estão fazendo isso cavando em si mesmos, tentando descobrir o que está acontecendo, onde e qual é o problema, e então, uma vez que encontram a causa raiz, eles estão tentando descobrir como depurá-lo.”

O futuro da observabilidade

Grandes modelos de linguagem (LLMs) podem ser um ator chave no futuro da observabilidade. Os LLMs são excelentes no reconhecimento de padrões em grandes quantidades de dados repetitivos, que se assemelham muito aos dados de log e telemetria em sistemas complexos e dinâmicos. E os LLMs atuais podem ser treinados para processos de TI específicos. Com ferramentas de automação, o LLM tem as informações e ferramentas necessárias para resolver erros de banco de dados ou problemas de heap Java e muito mais. Será essencial incorporá-los em plataformas que tragam contexto e relevância.

A remediação automatizada ainda levará algum tempo, diz Exner, mas os runbooks e playbooks automatizados gerados pelos LLMs se tornarão uma prática padrão nos próximos anos. Em outras palavras, as etapas de remediação serão conduzidas por LLMs. O LLM oferecerá soluções e o ser humano irá verificá-las e implementá-las, em vez de chamar um especialista.

Resolver a escassez de competências

A aposta total na IA para a observabilidade ajudaria a resolver uma grande escassez de talentos necessários para gerir a infraestrutura de TI. A contratação é lenta porque as organizações precisam de equipes com muita experiência e compreensão de possíveis problemas e de como resolvê-los rapidamente. Essa experiência pode vir de um LLM fundamentado contextualmente, diz Exner.

“Podemos ajudar a lidar com a escassez de habilidades aumentando as pessoas com LLMs que os tornam instantaneamente especialistas,” ele explica. “Acho que isso tornará muito mais fácil para nós pegar profissionais novatos e torná-los especialistas em segurança e observabilidade, e tornará possível que um profissional mais novato aja como um especialista.”

Streams no Elastic Observability já estão disponíveis. Comece por leitura mais sobre os fluxos.


Artigos patrocinados são conteúdos produzidos por uma empresa que paga pela postagem ou tem relacionamento comercial com a VentureBeat, e estão sempre claramente marcados. Para mais informações, entre em contato vendas@venturebeat.com.

avots