Explore o novo chatbot do Developer Center! O MongoDB AI chatbot pode ser acessado na parte superior da sua navegação para responder a todas as suas perguntas sobre o MongoDB .

Saiba por que o MongoDB foi selecionado como um líder no 2024 Gartner_Magic Quadrupnt()
Desenvolvedor do MongoDB
Centro de desenvolvedores do MongoDB
chevron-right
Produtos
chevron-right
MongoDB
chevron-right

Na interseção de AI/ML e HCI com Dogulas Eck do Google (MongoDB Podcast)

Michael Lynn, Anaiya Raisinghani30 min read • Published Aug 10, 2021 • Updated Aug 14, 2024
MongoDB
Ícone do FacebookÍcone do Twitterícone do linkedin
Avalie esse Podcast
star-empty
star-empty
star-empty
star-empty
star-empty
Doug Eck é o principal cientista do Google e diretor de pesquisa da Brain Team. Ele criou o projeto de pesquisa em andamento, Magenta, que se concentra no papel do aprendizado de máquina no processo de criação de arte e música. Ele está se juntando a Anaiya Raisinghani, Michael Lynne Nic Raboy hoje para discutir todas as coisas de inteligência artificial, aprendizado de máquina e para nos dar algumas dicas sobre seu papel no Google.
Vamos mergulhar de cabeça na HCI (Human Computer Interaction), o novo modelo de linguagem GPT-3 do Google, e discutir alguns dos problemas difíceis com a combinação de bancos de dados e aprendizado profundo. Com todo o hype em torno da AI, você pode ter algumas dúvidas sobre seu passado e futuro potencial, portanto, fique atento para ouvir um dos melhores do Google.
Doug Eck :[::]00 0000Olá a todos. Meu nome é Doug Eck e bem-vindo ao podcast MongoDB .
michael lynn : [::]00 0008Bem-vindo ao programa. Hoje estamos falando com Doug Eck. Ele é o principal Cientista do Google e diretor de Pesquisa da Equipe Científica. Ele também criou e ajuda a coordenar a equipe da MongoDB, um projeto de pesquisa contínuo que explora o papel do machine learning e o processo de criação de arte e músicas. O capítulo de hoje foi produzido e a entre- vista foi guiada por Anaiya Ra isinghani Ela é estagiária de verão aqui no MongoDB. Ela está fazendo um tarefa fantástico. Esperemos que aprecie este capítulo.
Temos alguns convidados hoje e nosso primeiro convidado é um estagiário de verão no MongoDB.
Anaiya Raraisinghani : [::]00 0055Olá a todos. Meu nome é Anaiya Raraisinghani e estou o estagiário de apoio do desenvolvedor aqui no MongoDB.
michael lynn : [::]00 0101Bem, bem-vindo ao programa. É ótimo ter você no podcast. Antes de começarmos, por que você não conta ao pessoal um pouco sobre você?
Anaiya Rashinghani : [::]00 0108Sim, claro. I'm da área da baia. Cresci aqui e frequentei a Universidade do Sul da Califórnia em L.A. Meu curso de graduação é em Linguística Computacional, que é meio CS, meio linguística. E gostaria de dizer que meu interesse geral por inteligência artificial vem mesmo das aulas legais que tenho a oportunidade única de fazer, como reconhecimento de voz, processamento de linguagem natural, e apenas a possibilidade de usar bibliotecas de aprendizado de máquina como o TensorFlow em alguns dos meus cursos projetos. Então, me sentido muito sortudo por ter sido exposto à IA mais cedo do que a maioria.
michael lynn : [::]00 0142Bem, ótimo. E entender que você Trouxe um convidado com você hoje. Você quer falar um pouco sobre quem é e o que vamos discutir hoje?
Anaiya Raraisinghani : [::]00 0148Sim, com certeza. Então, hoje temos um convidado muito, muito especial Doug Eck, que é Cientista Principal do Google, diretor de Pesquisa da Equipe Científica e Criador do MongoDB, então hoje vamos conversar sobre aprendizado de máquina, IA, e alguns outros tópicos interessantes. Muito obrigado, Doug, por estar aqui hoje.
Doug Eck :[::]00 0207Estou muito satisfeita por estar aqui, Anaiya.
michael lynn : [::]00 0208Bem, Doug, é ótimo ter você no programa. Muito obrigado por dedicar um tempo para falar conosco. E, neste ponto, gostaria de entregá-lo a Anaiya. Ela tem algumas perguntas preparadas. Este é o seu campo de trabalho, e ela tem alguma paixã o e interesse por ele. Então, vamos abordar alguns tópicos realmente interessantes no espaço de aprendizado de máquina. E Anaiya, direi para você.
Anaiya Rashinghani : [::]00 0230Ideal. Muito obrigado, mike. Só para começar, Doug, você poderia nos contar um pouco sobre o que você faz no Google?
Doug Eck :[::]Claro,00 0236obrigado, Anaiya. Bem, agora mesmo na minha carreia, eu participo de muitas eventos. Com isso, média que estou administrando uma grande equipe de pesquisas na equipe de pesquisa do Google e estou tentando ajudar a manter as coisas funcionando. Às vezes, parece que você está guiando gatos porque contratamos Pesquisadores muito talentosos e auto- dissociados que estão fazendo pesquisas fundamentais em aprendizado de máquina. Retornando um pouco, estou fazendo algo assim, meu deus, é aterrorizador de pensar, mas quase 30 anos. Em uma vida anterior quando eu era novo, como você Anaiya, eu tocou muita músicas, tocou viola. Eu era um major inglês como uma graduação, escrevendo muito e apenas continuei sendo puxado para a tecnologia. E quando terminei minha graduação, trabalhei como programador de banco de dados de dados.
Bem, bem antes do MongoDB. E, uh, eu fez isso por alguns anos e realmente aproveitei. E então concluí que minha paixão estava em algum lugar na sobreposição entre músicas e inteligência artificial. E, naquele ponto da minha vida, não tinha certeza se poderia ter fornecido uma definição precisa de inteligência artificial, mas saberia que queria fazer isso.
Eu queria ver se poderíamos fazer com que computadores inteligentes nos ajudassem a fazer música. E então eu voltei para a pós-graduação. De alguma forma, enganei um departamento de ciência da computação para permitir que um estudante de inglês fizesse um doutorado em ciência da computação com muita matemática extra. E entrei em uma área da AI chamada aprendizado de máquina, em que nosso objetivo é criar programas de computador que aprendam a resolver problemas, em vez de tentarmos escrever a receita nós mesmos.
E, nos últimos 20 anos, participo do aprendizado de máquina como pós-doutorando, fazendo uma estágio de pós-doutorado na Suíça. E então me mudei para o Canadá e me tornei professora lá e trabalhei com ótimas pessoas na Universidade de Montreal, assim como mudei minha carreira a cada poucos anos.
Então, uh, depois de sete anos lá, mudei e vim para a Califórnia e me tornei um cientista pesquisador do Google. E tenho trabalhado muito feliz aqui no Google. Desde então, durante 11 anos, me sinto muito sortuda por ter tido a chance de fazer parte do crescimento e, eu acho, do renascimento das redes neurais e do aprendizado de máquina em várias disciplinas realmente importantes e por ter liderado um pouco de interesse em AI e criatividade.
Anaiya Rashinghani : [::]00 0445Isso é ótimo. Muito obrigado. Atualmente, há muito sucesso em torno apenas da IA em geral e do aprendizado de máquina, mas para alguns de nossos ouvintes que podem não saber o que é, como você a descreveria da maneira que a entende?
Doug Eck :[::]00 0456Eu estava com temor que você perguntasse isso porque eu disse, você sabe, 30 anos atrás, eu não poderia ter lhe dado uma definição precisa de IA e não estou certo de que possa agora sem recorrer à Wikipedia e ao engano, eu definiria a inteligência artificial como a tarefa de construir software que se comporta de forma inteligente. E Tradicionalmente, houve duas abordagens básicas para a IA no passado, no passado distante, nos anos 80 e 90, chamamos isso de limpo versus desalinhado. Por outro lado, a ideia de escrever conjuntos de regras, escrever uma receita que definisse comportamentos complexos, como traduzir uma tradução, talvez, ou escrever um livro, e depois ter programas de computador que possam executar essas regras. Compare isso com desalinhado, porque é um pouco mais sujo. Um, em vez de pensar que reconhecemos as regras, em vez disso, construímos programas que podem examinar dados que podem examinar grandes conjuntos de dados. Às vezes, conjuntos de dados que têm rótulos, como esta é uma imagem, esta é uma imagem de um orangutan. Esta é uma imagem de uma bananeira, etc., e aprenda a relacionamento entre esses rótulos e esses dados. E esse é um tipo de aprendizado de máquina em que nosso objetivo é ajudar a máquina a aprender a resolver um problema, em vez de construir a resposta. E a longo prazo, pelo menos, a prova atual em que estamos agora em 2021 é que, para muitas, muitas tarefas difíceis, provavelmente a maioria delas, é melhor Ensinar a máquina a aprender do que tentar fornecer a solução para o problema. E é assim que eu definiria um aprendizado de máquina é escrever software que aprenda a resolver problemas processando informações como conjuntos de dados, uh, o que pode sair de uma c E, em seguida, aprender a aproveitar o que aprenderam com esses dados, uh, para resolver subproblemas específicos, como tradução ou, ou rotulagem, ou você escolhe. Existem milhares de exemplos possíveis.
Anaiya Rashinghani : [::]00 0651Isso é demais. Muito obrigado. Então, eu também queria perguntar porque você disse que há 30 anos, você não teria conhecido essa definição. Como foi ver como o aprendizado de máquina melhorou ao longo dos anos? Ainda mais agora, de uma perspectiva interna do Google.
Doug Eck :[::]Acho00 0707que subestimei consistentemente a rapidez com que podemos nos mover. Talvez essa seja a natureza humana. Notei uma estatística de que, não se trata de aprendizado de máquina, mas de algo menos de 70 anos,, 60 61 anos se passaram entre o primeiro voo, os irmanos Write e o pousar na lua. E 60 anos não é muito longo. É impactante a rapidez com que nos mudamos. E então eu suponha que não devesse estar em retrospectiva, uma surpreendo que nós, nos movemos tão rápido. Criei uma retrospectiva em que observo a qualidade da geração de imagens. Estou certo de que todos já ouviram essas expressões hiperrealistas que na verdade não são expressões de face, ou talvez já tenham escutado uma músicas que soam muito realistas, ou talvez já tenham visto um algoritmo de aprendizado de máquina capaz de gerar um texto realmente realista, e esse tudo estava acontecer. Você sabe, nos últimos cinco anos, realmente, média, o trabalho esteve lá e as ideias estão lá e os esforço estão lá há pelo menos duas décadas, mas de alguma forma eu acha que a combinação de escala, então ter muito grande conjuntos de dados e também poder de processamento, com um computador grande ou um computador grande ou muitos computadores conectados, geralmente executando uma CPU, ou TPU é o que você pensa em uma placa de vídeo, dando-nos o poder de processamento para dimensionar muito mais informações. E, uh, eu não sabe. Foi muito legal. Quer média, todo ano me surpreendo por levanto na segunda-feira de manhã e não temo ir para o trabalho, o que me faz sentir extremamente sortudo. E, uh, estou muito orgu
michael lynn : [::]00 0840Então, Doug, gostaria de perguntar a você e você meio que aludiu a isso, mas estou interessado em saber os progressos que fizemos. E ignoro que estamos nos apoiando nos Omos de Gigis e na Taxa Exponencial na qual Aumentamos os Avanços. Estou preocupado com a sua perspectiva, se você acha que é software ou hardware e talvez o que, você sabe, qual é a sua perspectiva em ambas as via em que estamos avançando.
Doug Eck :[::]00 0908Isso é uma troca. É uma troca muito clara. Quando você tem hardware lento ou hardware insuficiente, precisa ser muito, muito mais habilidoso com seu software. Então, sem dúvida, os modelos, as abordagens que usávamos no final dos 1990s, se você curte terminologia, se seu público curte palavras-chave suporte, máquinas vetoriais, matas aleatórias, impulso, todas elas são especialmente máquinas de vetor de suporte SVM são tudo relativamente complicado. Há muitas máquinas lá. E para conjuntos de dados muito pequenos e para poder de processamento limitado, eles podem superar o desempenho de abordagens mais simples, uma abordagem mais simples; uma regra muito simples para atualizar alguns números. Nós os chamamos de parâmetros, ou talvez os chamemos de pesos, e as redes generativas não funcionam muito bem para pequenos conjuntos de dados e para pequenas redes generativas em comparação com outras soluções. Então,1980nos s e 1990s, parece que eles não eram realmente muito bons. Se você escalar isso e executar uma rede causal simples, muito simples, com muitos pesos, muitos parâmetros que pode ajustar e tem muitos dados, permitindo que o modelo tenha algumas informações para realmente se apegar a eles funcionam surpreendentemente bem e parecem continuar funcionando cada vez melhor à medida que você torna os conjuntos de dados maiores e adiciona mais poder de processamento. E isso pode ser porque são simples. Há um argumento a ser feito lá de que há algo tão simples que é dimensionado para diferentes conjuntos de dados, tamanhos e poder de processamento diferente. Podemos conversar sobre cálculo, se você quiser. Podemos mergulhar na regra da cadeia. São apenas duas aplicações na regra da cadeia para obter o backprop.
michael lynn : [::]00 1051Grato por sua perspectiva. Eu gostaria de fazer mais uma pergunta sobre, você sabe, todos nós viemos deste digital convencional, você sabe, background de computação binária e coisas surpreendentes estão ocorrendo no espaço quático. Estou preocupado, você sabe, há algo acontecer no Google que você possa falar nesse espaço?
Doug Eck :[::]00 1111Bem, com certeza. Nós temos. Então, primeira ressalva, não SOU especialista em quântica. Temos um grupo quático de primeira linha em Sta. Bárbara e eles criaram alguns. Ele estava fazendo um grande progresso ao longo de alguns progressos no ano passado, meu entendimento da situação de que há uma certa classe de problemas que são extraordinariamente difíceis de resolver com o computador tradicional, mas que um computador quântica resolverá com relativa facilidade. E que, de fato, alguns desses problemas centrais podem formar a base para resolver uma classe muito mais ampla de problemas se você reescrever esses outros problemas como um desses problemas centrais, como fatoração de números primários, etc. E devo reconhecer que simplesmente não ser um especialista em quântica. Estou tão familiarizado com isso quanto você, estamos comprometidos. “Acho que o grande ponto de interrogação é se a classe de problemas que importa para nós é grande o suficiente para garantir o inves- timento e, essencialmente, subestimei todas as outras revoluções tecnologia. Correto. Você sabe, como eu não esperei chegar onde estamos agora. Então, eu suponha, você sabe, meu ceticismo sobre quântica é apenas, esta é a minha Personalidade, mas estou super ansioso com o que poderia ser. Você também sabe, é possível que estejamos em uma situação em que a Quantum produza algumas descobertas que nos coloquem alguns desafios, especialmente no que diz respeito à segurança e criptografia. Se encontrarmos novas maneiras de resolver problemas enormes que nos levarão indiretamente a resolver quebra-cabeças criptográficos. Mas se houver alguma pessoa quântica na arquibancada e você estiver dando de volta e age assim, esse sujeito não sabe do que está falando. Esse sujeito reconhece que não sabe do que está falando.
michael lynn : [::]00 1244Grato. Então, eu meio que descarrei a conversa. Anaiya, você pode retomar se quiser.
Anaiya Rashinghani : [::]00 1251Ideal. Obrigado. Hm, gostaria de perguntar um pouco sobre o HCI, que é a interação ser humano com o computador, e o que você faz nesse espaço. Muitas pessoas podem não ter escutado sobre a interação ser humano-computador e os ouvintes. Posso obter um pouco de background se você quiser, então é realmente apenas um campo que se concentra no design de tecnologia de computação e na maneira como humanos e computadores interagem. E parece que, quando as pessoas pensa em inteligência artificial, a primeira coisa em que refletem são, você sabe, em bots ou grandes espaços. Então, gostaria de perguntar o que você tem feito no Google. Você acredita que o aprendizado de máquina pode realmente ajudar a avançar a interação ser humano com o computador e a forma como os humanos e as máquinas interagem eticamente?
Doug Eck :[::]Obrigado00 1336por isso. Essa é uma pergunta incrivelmente importante. Então, primeiro um pouco de prefato. Mas parece que cometemos um erro grave na forma como conversamos sobre IA e aprendizado de máquina. E, especificamente, estou realmente desativada com a personificação da IA. Como se a IA fosse buscar você, certo? Como se fosse uma coisa ciente que tivesse vontade e queira ajudá-lo ou prejudicá-lo. E essa ligação com IA e robória, e eu estou muito cético em relação a este tipo de pessoal tecno-utópico que acredita que podemos resolver todos os problemas do mundo construindo uma IA sensível. Tipo, há muitos problemas reais à nossa frente para resolver. E acha que podemos usar a tecnologia para nos ajudar a resolvê-los. Mas estou muito mais interessado em resolver os problemas que estão bem à nossa frente, no planeta, em vez de pensar em superinteligente ou AGI, que é inteligência geral artificial, ou seja, algo mais inteligentes do que nós. Então, o que isso média para a interação humano-computador da HCI? Eu considero fundamentalmente. Usamos a tecnologia para nos ajudar a resolver problemas. Sempre temos, desde o início da humanos com coisas como dicas de setas e disparos, correto. E, fundamentalmente, não vejo IA e aprendizado de máquina como diferentes. Pense que o que estamos tentando fazer é usar a tecnologia para resolver problemas como tradução ou, você sabe, talvez identificação automática de objetos e imagens e coisas assim. Idealmente, muitos problemas mais interessantes do que isso. E um dos grandes bloqueios vem de pegar uma rede causal e, na verdade, fazer algo útil com ela. E, muitas vezes, há uma distância muito, muito, muito grande entre um modelo e um laboratório que pode, seja qual for, tirar uma imagem e identificar se há um or exclusivo ou uma bananeira e construir algo realmente útil, como talvez algum tipo de software médico que nos ajudá-lo a identificar o recnâc de . Correto. E isso, essa distância termina sendo cada vez mais sobre como realmente fazer o software funcionar para as pessoas lidarem com as restrições confusas do mundo real que existem em nosso real, você sabe, em nosso mundo real. E, você sabe, isso significa que, como eu, pessoalmente, e nossa equipe em geral, a equipe de estudos em que nos tornamos muito mais interessados em HCI. E eu não direi,Acho que da forma como você escreveu, o aprendizado de máquina pode ajudar a redefinir a HCI ou ajudar a HCI ou ajudar a mover a HCI. É da direção errada que precisamos lá como precisamos da ajuda da HCI. Então, nós nos tornamos honrados, mas pela nossa incapacidade de aceitar nossos algoritmos sofisticados e realmente fazer com que eles sejam importantes na vida das pessoas. E acha que em parte é porque não nos envolvemos o suficiente na última década com a comunidade HCI. E, você sabe, eu, pessoalmente, e várias pessoas no meu, no meu mundo, estamos tentando muito resolver isso. Ao lidar com problemas com pontos de vista conjuntos, esse ponto de vista de como o pesquisado de IA matematicamente orientado, se importando com quais são os dados. E então o pessoal da HCI e da interface do usuário disse: espere, que problema você está tentando resolver? E como você vai realmente pegar o que esse modelo pode fazer e colocá-lo nas mãos dos usuários e como você fará isso de uma forma que seja Ética de acordo com seu comentário Anaiya? E torcer para que alguém tenha aproveitado a similaridade de passar de um algoritmo de reconhecimento de imagem para a identificação de tipos de cncer. Este tem sido um tópico , por exemplo, gerado muita discussão porque os tipos de cãncer de cutne e a cor da pela estão correlacionados com a corrida e a capacidade desses algoritmos de trabalhar com um variedade de cores de pela pode diferir, um, e nossa capacidade de construir confiança com os médicas que desejam usar o software e os pacientes, eles acreditam que podem confiar no software. Como essas questões são tão, tão complicadas e é tão importante para nós corrigi-las. Então, você pode perceber que meu pai é um destemido. Suponha que devo encerrar isso, que é o mesmo que dizer que me converti. Talvez tenha o ardor de um convertido que não costumava pensar muito em HCI há cinco ou seis anos. Comece a ver à medida que esses modelos se tornam cada vez mais poderosos que o fator limitante é realmente como os usamos, como os implementamos e como os fazem funcionar para nós, humanos. Nós somos os personalizado, não o software, não a IA.
Anaiya Rashinghani : [::]00 1737Isso é demais. Muito obrigado por responder à minha pergunta, foi ótimo. E aprecio todos os pontos que você mencionou porque considero que eles precisam ser mencionados muito mais, especialmente na comunidade de IA. Eu gostaria de girar um pouco e participar do que você disse e falar sobre alguns dos problemas que surgem com o aprendizado profundo e a IA, e meio que conectá-los com redes generativas e bancos de dados, porque eu gostaria muito de ouvir sobre alguns das coisas que apareceram no passado quando se tentou integrar o aprendizado profundo a bancos de dados. E eu saiba que pode haver muitos problemas com aprendizado profundo e bancos de dados tabulares, mas e os bancos de dados baseados em coleção de documento ? E se os documentos forem análogos a registros ou linhas em um banco de banco de dados relacional, você acha que o aprendizado de máquina pode funcionar ou você acredita que os mesmos problemas podem surgir?
Doug Eck 001824:[::] Outra ótima pergunta. Então, primeiro para colocar tudo isso em conteúdo, sem dúvida um pesquisado em aprendizado de máquina. quem está realmente escrevendo código dia após dia, o que eu fez no passado e agora estou fazendo mais trabalho de gerenciamento, mas você está, você sabe, você está escrevendo código dia-a-dia, você está tentando resolver um problema difícil.70 80Talvez ou % do seu tempo seja gasto lidando com dados e como gerenciar dados e como garantir que você não tenha erros de dados e como mover os dados pelo seu sistema. provavelmente como em outras áreas da ciência da computação, você sabe, temos a tendência de chamá-lo de encanamento. Você passa muito tempo trabalhando em encanamento. E esta é uma tarefa gerenciável. Quando você tem um conjunto de dados do tipo com o qual poderíamos ter trabalhando 15 anos atrás,,, 10 00028 por 28 imagens de pixels ou algo parecido. Espera ter os pixels certos. Algo chamado eminência, um grupo de dígitos escritos. Se começarmos a ver conjuntos de dados que são todos da web básicamente representados de uma forma ou de outra, todos os livros da biblioteca do Senado como um, como uma imagem hipotética, massiva, conjuntos de dados, massivos conjuntos de dados de vídeo, correto? A capacidade de apenas meio que simular. Correto, escreva um pouco de código Python que processe seus dados e os jogue em um arquivo simples de algum tipo se torna, você sabe, se torna praticamente não rastreável. E então, parece que estamos em um ponto de inflexão agora, talvez estejamos nesse ponto de inflexão um ou dois anos atrás. Onde muitos pesquisas de aprendizado de máquina estão considerando maneiras escaláveis de lidar com dados. Então essa é a primeira coisa. A segunda questão é que também estamos especificamente em relação a redes mentais muito grandes, desejando que as estimativas sejam reais. Se tivermos um bot de bate-papo que conversa com você e esse bot de bate-papo for guiado por uma rede causal e você perguntar a ele qual é a capital de Iowa, meu estado de origem. 50 51 51Esperemos que diz Distribuidores todas as vezes. Uh, não queremos que isso seja um rolar de dados. Não queremos que seja um modelo probabilístico que rola os dados e dizIndianoális, você sabe, vezes, mas vez que primeira vez diz Springfield. Portanto, há essa área de pesquisa muito, muito ativa e rica de ponte entre bancos de dados e redes generativas, que são probabilísticas e encontram maneiras de pousar no banco de banco de dados e realmente obter a resposta certa. E é a resposta certa porque verificamos que é a resposta certa. Temos uma equipe separada trabalhando com esse banco de dados de dados e entendemos como relaciona-la com algum algoritmo de tomada de decisão que possa fazer uma pergunta: devo ir paraIndianoális? Talvez seja uma questão probabilística. Talvez seja o papel como um dado. Talvez todos não queiram vir para Index. Depende de você, mas estou tentando fazer a distinção entre, entre estes dois tipos de, de decisões. Dois tipos de informações. Um deles é probabilístico. Cada frase é única. Podemos descrever a mesma imagem com um milhão de frases diferentes. Mas não queremos perder os detalhes, especialmente se queremos resolver problemas difíceis. E então há um desafio aberto. Não tenho uma resposta para isso. Há muitas, muitas pessoas mais inteligentes do que eu trabalhando em maneiras de preencher a lacuna entre produtos como MongoDB e aprendizado de máquina. Não demora muito para perceber que há muitas pessoas refletindo sobre isso. Se você fizer uma pesquisa no Google e limitar ao site reddit.com e colocá-las no MongoDB e no aprendizado de máquina, verá muitas discussões sobre como podemos apoiar algoritmos de aprendizado de máquina com bancos de dados. Então, é sem dúvidas um tópico aberto. Finalmente. Terceiro, você mencionou algo sobre linhas e colunas e a estrutura real de um banco de banco de dados relacional. Isso também é muito interessante porque algoritmos que são sensíveis, Digo algoritmo, média , uma rede causal, ou algum outro programa de modelo projetado para resolver um problema. Você sabe, esses algoritmos podem realmente aproveitar essa estrutura. Não apenas como lidar com isso, mas realmente entender de algumas maneiras como, de maneiras que está aprendendo como aproveitar a estrutura do banco de banco de dados para facilitar a resolução de determinados problemas. E há pesquisas fora de bancos de dados para aprendizado de máquina em geral para acreditar que isso é possível. Então, por exemplo, no trabalho, por exemplo, ao prever a estrutura de Proteções e outras Moléculas, temos algum que poderíamos chamar de informação prévia estrutural, temos alguma ideia sobre a geometria de como as Moléculas devem ser. E há maneiras de aproveitar essa geometria para limitar o espaço de predições que o modelo faria. É meio que dado essa estrutura como, como base para, para, para as produçãos, as projeções estão sendo feitas de forma que provavelmente não fará projeções que violem essa estrutura. Por exemplo, crie gráficos de redes generativas que realmente funcionam em um gráfico. Você pode anotar uma estrutura de banco de dados de dados como um gráfico, se quiser, e aproveitar esse gráfico para resolver problemas difíceis. Foi como uma resposta de 10 minutos. Tentarei torná-las mais curtas da próxima vez, Anaiya, mas essa é a minha resposta.
Anaiya Raraisinghani : [::]00 2303Sim. Porque eu, bem, eu estava pesquisando por isso e, também quando aceitei o tarefa, muitas das perguntas durante a pesquisa foram: como você usaria o aprendizado de máquina, uh, durante meu estágio e vi artigos como estender todo o caminho de volta para os primeiros dois milésimos de texto explicando como a aplicação de redes generativas artificial e ANNs a grandes bancos de dados modernos parece uma ótima ideia em teoria, porque você sabe que, como elas, elas oferecem tolerância a falhas potenciais, são inerentemente paralelas . Um, e a interseção entre eles parece realmente superatraente. Mas Encontrei este artigo sobre isso e tipo, a data era 2000 e então procurei outras coisas e tudo a partir daí eram problemas entre conectar bancos de dados e o aprendizado profundo. Então, muito obrigado pela sua resposta. Eu realmente aprecio isso. Sinta que, especialmente neste podcast, foi uma resposta ótima para uma pergunta difícil.
Doug Eck :[::]00 2357Posso jogar, posso jogar mais uma coisa antes de você seguir em frente? Há também alguns como o que eu chamei de baixos resultados. Como um grupo de problemas mais simples que podemos resolver. Portanto, uma das grandes áreas do aprendizado de máquina em que estou trabalhando é a de modelos de linguagem de texto. Correto? Pense em tradução, você digita uma string em um idioma e nós a traduzimos para outro idioma ou se, e se, seus ouvintes pagaram atenção a alguns, algum novo um, modelos de aprendizado de máquina que podem, você pode chat com eles como chatbots, como o Lambda do Google ou alguns modelos de linguagem grandes que podem escrever histórias. Estamos realizando que podemos usá-los para aumento de dados e, talvez indiretamente, para verificação de dados. Assim, podemos usar redes generativas para prever entradas de dados incorretas. Podemos ser capazes de, por exemplo, digamos que seu banco de dados de dados esteja tentando fornecer mil maneiras diferentes de descrever uma cenário. Podemos ajudar a automatizar isso. E então você teria um ser humano que está chegando. Como os humanos sempre precisam estar lá, parece que devo ser responsável, você sabe, dizendo, tudo bem, aqui está como, você sabe, 20 maneiras diferentes de descrever essa cenário em diferentes níveis de complexidade, mas usamos a rede Neural para ajudar a tornar seu trabalho muito, muito mais rápido. E então, se formos além de tentar resolver todo o problema, tipo, o que é um banco de dados de dados e como o geramos, ou como o mantemos? Tipo, isso é algo que é como o SANTO Graal, mas podemos estar considerando o uso de redes ureiais em particular modelos de linguagem para, tipo, dados humanos, pessoas de qualidade de dados, de maneiras que, na verdade, só vão varrer o campo e nos ajuda a fazer um tarefa muito, muito melhor desse tipo de validação. E até eu me lembrar de há muito tempo, quando criei bancos de dados, a validação de dados é uma preocupação, certo? Todo mundo odeia dados podres. É lixo para dentro, lixo para fora. Portanto, se pudermos obter dados melhores e mais limpos, todos ganhamos.
Anaiya Raraisinghani : [::]00 2539Sim. E, sobre o assunto de modelos de linguagem, também queria falar sobre a GPT 3 e vi um artigo do MIT recentemente sobre como eles estão achando que ela pode substituir a classificação de página do Google. E eu gostaria muito de ouvir sua visão sobre o que você acha que pode acontecer no futuro e se os modelos de linguagem realmente podem substituir a indexação.
Doug Eck :[::]00 2558Então, para deixar claro, ainda precisaremos fazer a indexação, certo? Ainda precisamos indexar os documentos e precisamos ter alguma ideia do que eles média. Esta é a melhor maneira de pensar sobre isso. Então, conversamos com a IO este ano sobre o uso de alguns modelos de linguagem grandes para melhorar nossa pesquisa em nossos produtos. E já conversamos sobre isso em outros blogs. Não gostaria de me colocar em apuros declarando mal o que já foi afirmado. Eu o indicaria lá porque você sabe, alguém quer, alguém quer ter que falar com o gerente depois que o podcast for lançado e diz: Por que você disse isso? Você sabe, mas aqui está a questão. Isso me chama a atenção. E esta é apenas a minha visão. Classificação da página do Google. Para aqueles que não sabe o que é classificação de página, a ideia básica é, em vez de examinar um documento e o que ele contém. Decidimos o valor do documento por outros documentos vinculados a esse documento e quanto confiamos nos outros documentos. Portanto, se vários sites de renome estiverem vinculados a um documento que por acaso seja sobre automóveis, confiaremos que esse documento seja sobre automóveis, certo? Um, e então é, é um problema de gráfico onde atribuímos confiança e a propagamos, a partir de links de entrada. Um, obrigado, Lary e Sergei. Por trás disso está essa falta de confiança fundamental de ser capaz de descobrir o que está em um documento. Correto, como toda a ideia é dizer, não sabemos realmente o que há neste documento. Então, vamos criar um truque que nos permita avaliar este documento com base no que outros documentos pensa sobre ele. Correto. E uma maneira de pensar sobre essa volta e os grandes modelos de linguagem, um, como3 o GPT-, que veio da IA aberta e, um, que é baseado em alguma tecnologia central que veio do nosso grupo chamado Transformer. Esse é o T no GPT-3 com sempre há concorrência de amigos que o pessoal da Open AI é ótimo. E também considero nossa equipe ótima. Vamos meio que aumentar quem pode, quem pode se mover mais rápido, um, saúde para Open AI. Agora temos algumas boas maneiras de levar um documento cheio de palavras. E se você quiser pensar sobre isso abstratamente, projetando-o em outro espaço de números. Então, talvez para esse documento, que pode ter quantas palavras você precisar para o documento, digamos que esteja entre e, palavras, correto. Pegamos uma 500 rede 2 causal000 e executamos essa sequência através dela. E obtemos esse vetor de números, esse vetor, essa sequência de números talvez sejam mil números certos, agora, graças à rede causal esses mil números realmente fazem um bom tarefa ao descrever o que está no documento. Não podemos ler com os nossos olhos, porque é apenas uma sequência de números. Mas se pegarmos esse vetor e compará-lo com outros vetores, o que descobriremos é que vetores semelhantes na verdade contêm documentos que contêm informações muito semelhantes e podem ser escritos de forma completamente diferente. Correto. Mas topicamente eles são semelhantes. E então, o que obtemos é a capacidade de entender conjuntos de dados massivos, massivos de texto em relação ao que se trata, o que significa e para quem é. E agora temos um tarefa muito melhor do que há em um documento e podemos usar essas informações para aumentar o que sabemos sobre como as pessoas usam documentos, como se vinculam a eles e o quanto confiam neles. E isso nos dá uma maneira melhor de exibir documentos relevantes para as pessoas. E esse é o ponto crucial em minha mente, ou pelo menos em minha visão de por que um grandes modelos de linguagem pode ser importante para uma empresa de pesquisa. Isso nos ajuda a entender a linguagem e, fundamentalmente, a maior parte da pesquisa é sobre linguagem.
Anaiya Rashinghani : [::]00 2911Eu também queria falar com você sobre, porque a linguagem é uma das grandes coisas com IA, mas agora tem havido muito movimento em direção à arte e à músicas. E eu seis que você é realmente grande nisso. Então, eu queria perguntar sobre para os ouvintes, se você pudesse explicar um pouco por trás do Manager, e então também gostaria de falar com você sobre o Yatch, porque tinha notado que eles usaram o MongoDB para sim. Para o novo disco. E então, quais são seus comentários sobre a utilização da IA para continuar os legados na arte, na músicas e apenas na criação?
Doug Eck :[::]00 2945Ok, legal. Bem, esta é uma pergunta gira para me. Uh, então primeiro o que é Manager? Manta é um projeto de código aberto que estou muito confiante em dizer que criei inicialmente há cerca de seis anos. E nosso objetivo com a Manager é explorar o papel do aprendizado de máquina como uma ferramenta no processo criador. Se quiser encontrá-lo, está em g.co/monge. Estamos lá há muito tempo. Você também pode apenas pesquisar pelo Google Mongo e nos encontrará, um, tudo o que podemos fazer é em código aberto, ou seja, fornecemos ferramentas para Músicos e intérpretes, principalmente Músicos com base na equipe. SOmos Músicos de Coração. Isso você pode usar para estender seu eu gráfico, uh, seu eu gráfico. Você pode gerar novas metodologias, pode mudar a forma como as coisas soam, pode entender mais, uh, a tecnologia. Você pode nos usar para aprender JavaScript ou Python, mas tudo o que podemos fazer é ampliar as pessoas e sua produção de músicas. Então, uma das primeiras coisas que sempre Digo é que seria legal podermos gerar metodologias que soem realistas que, você sabe, talvez soem como Bach ou soem como outro Compositor, mas esse não é o ponto. Isso não é legal. Tipo, eu acha que a músicas é sobre pessoas se comunicando com outras pessoas. E então nós estamos realmente mais na herança de, você sabe, les paul que criou foi um dos criadors da viola elétrica ou as pessoas legais que criarampedais de viola ou compressores, ou escolha sua tecnologia favorita que usamos para fazer um novo tipo de músicas. Nossa verdadeira questão é se podemos construir um novo tipo de ferramental ou um novo tipo de experiência de fazer músicas usando o aprendizado de máquina. E passamos muito tempo fazendo pesquisas fundamentais nesse espaço, publicadas em conferências e periódicos do tipo que todos os especialistas em computação fazem. E fizemos muitos trabalhos de código aberto em JavaScript para que você possa fazer coisas muito rapidamente no navegador. Também plug-ins para software popular para Músicos como Ableton e, em seguida, tipo de aprendizado de máquina hardcore em Python, e fizemos alguns trabalhos experimentais com alguns artista. Então, tentamos entender melhor do lado da HCI, como tudo isso funciona para atores de verdade. E um dos primeiros grupos com os quais trabalhei é, de fato, obrigado por perguntar a um grupo chamado Iate. Eles são surpreendentes em minha mente, uma banda pop excepcional. Suponha que alguma parte do sistema de somLCD faz parte. Não sabe quem mais adicionar. Eles são de L.A., sua pessoa da frente. Não usamos a palavra frontman porque é a ayCliere e a Piper. Ela é uma cantora incrivel, uma presença totalmente assombrando no palco. Ela também é uma pessoa de tecnologia, uma escritora de tecnologia, e ela tem um grande livro que todos deveriam ler, especialmente todas as mu lheres em tecnologia, Anaiya, chamado de LargaBand a história de, um, de mu lheres na internet. média, não me recordo se tenho o subtitulo, não é mesmo. De qualquer forma, pessoas muito interessantes e o que elas fizeram foi procurar-nos e trabalhar com um grupo de outras pessoas de IA, não apenas com o Google. Tipo, se nós fossemos um dos cinco ou seis colaboradores e eles apenas mergulharem de cabeça e apenas lidarem com a tecnologia e tentarem fazer algo interessante. E o que eles fizeram foi tirar um de nós, eles pegaram um modelo de aprendizado de máquina. Isso é capaz de gerar variações de um tema. Então, e eles usam músicas pop. Então, você sabe, você está certos. E então, derepente, o modelo está gerando muitas variações diferentes e eles podem navegar pelo espaço, jogar e encontrar coisas diferentes. E então eles tinham isso como uma leve extensão de IA de si mesmos. Correto. E o que eles fizeram foi totalmente surpreendente. Isso é importante. Um, eles, eles primeiro apenas mergulharam e lidaram técnicamente com os problemas que tivemos. Nosso jogo HCI estava muito baixo na época, tipo, literalmente primeiro digite esse comando digita em um console. E então ele gerará alguns arquivos intermediários e, você sabe, há Músicos como eles são realmente muito bons técnicamente, mas outro conjunto de Músicos como o que é uma linha de comando. Correto. Você sabe, como o que é terminal. Então, você sabe, você tem essas pessoas que não trabalham com nossas ferramentas, então não temos nada parecido para elas. Mas eles também definem restrições. Então, uh, Mona e Rob, as outras duas pessoas da banda, eles criaram um tipo de livro de regras, o que eu considero realmente interessante. Eles afirmaram, por exemplo, que se pegarmos uma Melodia gerada pelo modelo da MongoDB, não a editaremos nunca, nunca, nunca. Correto. Podemos rejeitá-lo. Correto. Podemos ouvir vários deles, mas não vamos editar. E então, de alguma forma, eles se forçam a dar um "gosta" e, se não tivessem feito isso, se tornaria um mingau. Como eles, eles não saberiam o que a IA realmente fez no final. Correto. Então eles fizeram isso e fizeram o mesmo com outro, uh, algumas outras pessoas, uh, gerando letras, a mesma ideia. Eles geraram muitas letras. E então ela os curou. Então, a curadoria era importante para eles. E, uh, esse processo de curadoria acabou sendo muito valorizado para eles. Talvez resumisse como curadoria, sem edição. Eles também quiseram os erros. Eles gostariam quando as redes não faziam a coisa certa. Então, eles preferiram uma quebra como essa ideia de que, oh, isso não fez o que era para fazer. Eu curto isso. E então essa combinação de trabalho de Curiosidade semelhante eles chamaram de trabalho muito árduo. Um, e em um sentido de construir algumas regras, construir um tipo de que eu chamaria de gramática em torno do que eles estão fazendo da mesma forma que os realizadores têm uma gramática sobre como você conta uma história. Contaram uma história muito bonita, e desconheço. Estou realmente amando Chain Tripping. Esse é o disco. Se você a ouviu, cada linha de base foi escrita por um modelo cor de cobre. As letras foram escritas por, uh, uma rede LSTM de outro grupo. A ilustra
Anaiya Raraisinghani : [::]00 3509Sim, eu escutei. É ótimo. Me parece que isso só faz alusão a quão longe a tecnologia chegou.
Doug Eck :[::]00 3516Estou de acordo. Oh, a propósito que o, as batidas do percalço, as batimentos do percalço vêm do mesmo modelo. Mas na verdade não temos um modelo de bateria. Então eles simplesmente jogaram fora as notas e manteram as durações, você sabe, e as linhas de base vêm de um modelo que foi formado em teclado, onde ambos, Rob e Mona tocam baixo, mas Rob, o cara que geralmente joga o baixo na banda gera essas linhas de base que são realmente difíceis de reproduzir. Então você tem essa ideia de que a IA é como se estivesse gerando coisas que eles apenas não estão familiarizados com o palco. E então eu tambémadoro essa ideia, de que é como empurrá-los, mesmo de maneiras que, como no palco, eles tenham que fazer as coisas com as mãos de forma um pouco diferente do que teriam que fazer. Um, então isso meio que os empurra para fora.
michael lynn : [::]00 3554Então, estou interessado em saber o processo de autoria com o Manager e , talvez até especificamente devido à maneira como Yatch montou esse disco, quais são os arquivos de entrada? O que treinar o sistema.
Doug Eck :[::]00 3607Então, neste caso, isso foi ótimo. Nós demos a eles o software, eles forneceram suas próprias derivações médias a partir de seu próprio trabalho. Então, eles realmente controlaram o processo. Você sabe, nosso software foi lançado e está licenciada para, você sabe, é uma licença Apache, mas não temos nenhuma reivindicação sobre o que está sendo criado. Eles colocam seus próprios dados, eles possuem tudo. E isso realmente tornou o processo muito mais interessante. Eles não eram como trabalhar com alguns conjuntos de dados de Piano estranhos, como músicas clássicas. Eles estavam como trabalhar com seus próprios talos de, um, suas próprias gravações anteriores.
michael lynn : [::]00 3636Incrível.
Anaiya Rashinghani : [::]00 3638ótimo. Para minha última pergunta, para completar isso, eu só queria perguntar: o que você vê de impactante e interessante sobre o futuro do aprendizado de máquina.
Doug Eck :[::]00 3649Estou tão ruim na esfera decristal. Um,
michael lynn : [::]00 36No53 entanto,adoro a pergunta.
Doug Eck :[::]00 3656Sim. Então, então aqui, eu considero, eu considero primeiro, que devemos ser sempre Habilidosos sobre o que alcançamos. Se você procurar, saberá que os humanos são muito inteligentes, muito mais inteligentes do que as máquinas. E se você observar os materiais gerados a partir do aprendizado profundo, por exemplo, os caras, quando aparecem pela primeira vez, qualquer que seja o novo modelo lançado primeiro, tipo, oh meu deus, não dá para diferenciá-los dos humanos. E então, se você joga com eles por um tempo, você está tipo, oh sim, eles não estão certos. Eles não estão certos. E isso sempre foi verdade. Recordo-me de ler sobre como quando o fonográfico foi lançado pela primeira vez e eles o fariam, eles o fariam, como um palco de um teatro. E isto é como um, com um cilínulo de Cera, sabe? As pessoas dirão que soa exatamente como uma orquestra. Não posso diferenciá-lo. Correto. Eles apenas não estão familiarizados com isso. Correto. E então, como primeiro, acha que devemos ser um pouco Habilidosos sobre o que alcançamos. Pense que, especialmente com modelos como GPT-,3 como modelos, modelos de linguagem grandes, alcançamos um tipo de fluent que nunca hav{ alcançado antes. Então, o modelo parece que está fazendo algo, mas como se não fosse a lugar nenhum. Correto. E é por isso que, de modo geral, considero que as novas e impactantes descobertas surgirão quando pensarmos em como tornar esses modelos controláveis, para que um usuário possa realmente moldar a saída de um desses modelos? Um criador de políticas pode adicionar camadas ao modelo que o tornem mais seguro? Correto. Então, podemos realmente usar essa rede causal, você sabe, como um dispositivo de aprendizado para aprender o que é necessário para definir padrões em dados, mas para fornecer aos usuários muito mais controle sobre como esses padrões são usados em um produto. E é aqui que julgo que vamos ver as verdadeiras vitórias, a capacidade de aproveitar isto para resolver problemas da forma correta.
Anaiya Rashinghani : [::]00 3833Ideal. Doug, muito obrigado por ter ido hoje. Foi ótimo ouvir você.
Doug Eck :[::]00 3839Foi ótimo. Graças por todas as ótimas perguntas, Anaiya, foi fantástico
michael lynn : [::]00 3844Repetirei isso. Muito obrigado, Doug. Foi ótimo conversar com você. Obrigado por ouvir. Se você leu este capítulo, por favor, curta e se inscreva, tem uma pergunta ou sugestão para o programa? Visite-nos nos fóruns da comunidade MongoDB em community.Mongodb.com.
Muito obrigado por tirar um tempo para ouvir nosso capítulo de hoje. Se você quiser saber mais sobre o trabalho de Doug no Google, poderá encontrá-lo por meio de seu perfil no LinkedIn ou em seu perfil noGoogle Research. Se você tiver alguma dúvida ou comentário sobre o capítulo, fique à vontade para entrar em contato com Anaiya Raraisinghani,Michael Linn ou Nic RaBoy.
Você também pode encontrar isso e todos os capítulos do MongoDB Podcast em sua rede de podcast favorita.

Ícone do FacebookÍcone do Twitterícone do linkedin
Avalie esse Podcast
star-empty
star-empty
star-empty
star-empty
star-empty
Relacionado
Tutorial

Preparando dados de série temporal para ferramentas de análise com $densify e $fill


Sep 17, 2024 | 8 min read
Tutorial

Crie uma API RESTful com .NET Core e MongoDB


Sep 11, 2024 | 8 min read
Artigo

Paginations 2.0: Por que escolher o MongoDB


Jul 12, 2024 | 4 min read
Tutorial

Uma leve introdução às listas vinculadas com o MongoDB


Apr 02, 2024 | 13 min read