Data Engineer/DevOps Pleno/Senior

São Carlos/SP (possibilidade de remoto)
40 horas semanais
Início: Imediato

Birdie é uma startup criada em Palo Alto, na Califórnia, no início de 2018 e que tem sem time de tecnologia orgulhosamente baseado no Brasil. Atualmente, os times no Brasil estão distribuídos entre São Paulo e São Carlos e nos EUA, Palo Alto e Miami. A empresa conta com um time de especialistas em Data Science e Machine Learning para buscar e estruturar informações de todos os cantos da internet para montar uma gigante base de conhecimentos de produtos e suas opiniões.

Estamos coletando e processando milhões de opiniões de diversos países (avaliações de consumidores, reviews técnicos, unboxing, entre outros) descritas majoritariamente em linguagem natural. Precisamos processar, armazenar e disponibilizar uma grande quantidade de dados que são estruturados utilizando diversas técnicas de Aprendizado de Máquina e Processamento de Linguagem Natural (PLN) em nosso pipeline para extrair informações estruturadas úteis.

Procuramos por profissionais que queiram se juntar ao time para trabalhar com esse tipo de aplicação no mundo de Ciência de Dados. Você irá compor um papel fundamental no time ao criar novas pipeline de dados e manter as atuais para que executem métodos de coleta, transformação e armazenamento (ETL) de dados, apoiando a execução de algoritmos de Aprendizado de Máquina e PLN considerados estado-da-arte, entre outros, aplicados a diversas línguas (mas principalmente Português, Inglês e Espanhol).

Cito aqui parte do stack de tecnologia que você deverá trabalhar:

• Python
• Airflow
• Scrapy
• Postgresql
• Gitlab CI/CD
• Google Cloud Platform
• Pub/Sub
• Google Fuctions
• Docker / Kubernetes / Helm
• Flask / Gunicorn

Você irá fazer parte um time multi-disciplinar que compõem diferentes partes do projeto desde a coleta e estruturação de diferentes tipos dados sobre produtos até a criação de experiência (UX) web com usuários.

Principais responsabilidades

Desenvolver, monitorar e manter a infra-estrutura de pipeline de coleta (crawlers), armazenamento e processamento dos dados.
Pesquisar, avaliar, utilizar e divulgar as melhores práticas para construir pipeline de dados (ETL) escaláveis na nuvem.
Apoiar no desenvolvimento e na disponibilização de modelos de Aprendizado de Máquina construídos pelo time.
Desenvolvimento endpoints para disponibilização dos dados processados para o time de desenvolvimento de produtos
.

Habilidades / Conhecimentos desejáveis

Experiência em duas ou mais tecnologias citadas (ou análogas) de nossa stack.

Está interessado? Venha conversar com a gente.

Aplique para esta vaga

Alguma dúvida? Quer saber mais?

jobs@birdie.ai
birdie.ai