LangChain JS/TS 통합 시작하기
이 페이지의 내용
참고
이 튜토리얼에서는 LangChain의 JavaScript 라이브러리 를 사용합니다. . Python 라이브러리를 사용하는 튜토리얼은 Atlas Vector Search 와 LangChain 통합을 참조하세요.
Atlas Vector Search를 LangChain 과 통합할 수 있습니다.LLM 애플리케이션을 빌드하고 검색 강화 생성(RAG)을 구현합니다. 이 튜토리얼에서는 LangChain과 함께 Atlas Vector Search 를 사용하여 데이터에 대해 시맨틱 Atlas Search를 수행하고 RAG 구현을 구축하는 방법을 보여 줍니다. 구체적으로 다음 조치를 수행합니다.
환경을 설정합니다.
Atlas에 사용자 지정 데이터를 저장합니다.
데이터에 Atlas Vector Search 검색 인덱스를 만듭니다.
다음 벡터 검색 쿼리를 실행합니다.
시맨틱 검색.
메타데이터 사전 필터링을 통한 시맨틱 검색.
최대 한계 관련성(MMR) Atlas Search.
Atlas Vector Search를 사용하여 RAG 를 구현하여 데이터에 대한 질문에 답변하세요.
배경
LangChain은 '체인'을 사용하여 LLM 애플리케이션 생성을 간소화하는 오픈 소스 프레임워크입니다. 체인은 RAG 를 포함한 다양한 AI 사용 사례에 결합할 수 있는 LangChain 관련 구성 요소입니다.
Atlas Vector Search를 LangChain과 통합하면 Atlas를 벡터 데이터베이스로 사용하고 Atlas Vector Search를 사용하여 데이터에서 의미상 유사한 문서를 조회하고 RAG를 구현할 수 있습니다. RAG에 대해 자세히 알아보려면 Atlas Vector Search를 사용한 검색 증강 생성(RAG)을 참조하세요.
전제 조건
이 튜토리얼을 완료하려면 다음 조건을 충족해야 합니다.
Atlas cluster 버전 6.0.11을 실행하는 MongoDB, 7.0.2 이상( RC 포함).
OpenAI API 키입니다. API 요청에 사용할 수 있는 크레딧이 있는 유료 OpenAI 계정이 있어야 합니다.
Node.js 프로젝트를 실행하기 위한 터미널 및 코드 편집기입니다.
npm 및 Node.js 설치되었습니다.
환경 설정
먼저 이 튜토리얼을 진행하려면 환경을 설정해야 합니다. 환경을 설정하려면 다음 단계를 완료하세요.
이라는 파일 get-started.js
을 만들고 다음 코드를 붙여넣습니다.
프로젝트에서 get-started.js
파일을 만든 다음, 다음 코드를 복사하여 파일에 붙여넣습니다. 튜토리얼 전체에서 이 파일에 코드를 추가합니다.
이 초기 코드 스니펫은 이 튜토리얼에 필요한 패키지를 가져오고, 환경 변수를 정의하고, Atlas 클러스터에 대한 연결을 설정합니다.
import { formatDocumentsAsString } from "langchain/util/document"; import { MongoClient } from "mongodb"; import { MongoDBAtlasVectorSearch } from "@langchain/mongodb"; import { OpenAIEmbeddings, ChatOpenAI } from "@langchain/openai"; import { PDFLoader } from "@langchain/community/document_loaders/fs/pdf"; import { PromptTemplate } from "@langchain/core/prompts"; import { RecursiveCharacterTextSplitter } from "langchain/text_splitter"; import { RunnableSequence, RunnablePassthrough } from "@langchain/core/runnables"; import { StringOutputParser } from "@langchain/core/output_parsers"; import * as fs from 'fs'; process.env.OPENAI_API_KEY = "<api-key>"; process.env.ATLAS_CONNECTION_STRING = "<connection-string>"; const client = new MongoClient(process.env.ATLAS_CONNECTION_STRING);
자리 표시자 값을 바꿉니다.
<api-key>
<connection-string>
환경 설정을 get-started.js
완료하려면 의 및 자리 표시자 값을 API 클러스터의 OpenAI 키 및 SRV 연결 string 로 Atlas 바꾸세요. 연결 string 은 다음 형식을 사용해야 합니다.
mongodb+srv://<db_username>:<db_password>@<clusterName>.<hostname>.mongodb.net
Atlas를 Vector Store로 사용
이 섹션에서는 사용자 지정 데이터를 Atlas에 로드하고 Atlas를 벡터 저장소 라고도 하는 벡터 데이터베이스로 인스턴스화하는 비동기 함수를 정의합니다. . get-started.js
파일에 다음 코드를 추가합니다.
참고
이 튜토리얼에서는 공개적으로 액세스할 수 있는 MongoDB Atlas 모범 사례 라는 제목의 PDF 문서를 사용합니다. 벡터 저장소의 데이터 소스로 사용합니다. 이 문서에서는 Atlas 배포서버를 관리하기 위한 다양한 권장 사항과 핵심 개념을 설명합니다.
이 코드는 다음 작업을 수행합니다.
다음 매개변수를 지정하여 Atlas 컬렉션을 구성합니다.
langchain_db.test
문서를 저장할 Atlas collection으로 지정합니다.vector_index
를 벡터 저장소를 쿼리하는 데 사용할 인덱스로 사용합니다.text
를 원시 텍스트 콘텐츠가 포함된 필드의 이름으로 지정합니다.embedding
를 벡터 임베딩이 포함된 필드의 이름으로 지정합니다.
다음을 수행하여 사용자 지정 데이터를 준비합니다.
지정된 URL에서 원본 데이터를 검색하여 PDF로 저장합니다.
텍스트 분할기 를 사용합니다. 데이터를 작은 문서로 분할합니다.
각 문서의 문자 수와 두 개의 연속 문서 간에 겹치는 문자 수를 결정하는 청크 매개변수를 지정합니다.
MongoDBAtlasVectorSearch.fromDocuments
메서드를 호출하여 샘플 문서에서 벡터 저장소를 만듭니다. 이 메서드는 다음 매개변수를 지정합니다.벡터 데이터베이스에 저장할 샘플 문서입니다.
텍스트를
embedding
필드의 벡터 임베딩으로 변환하는 데 사용되는 모델인 OpenAI의 임베딩 모델입니다.Atlas 구성.
async function run() { try { // Configure your Atlas collection const database = client.db("langchain_db"); const collection = database.collection("test"); const dbConfig = { collection: collection, indexName: "vector_index", // The name of the Atlas search index to use. textKey: "text", // Field name for the raw text content. Defaults to "text". embeddingKey: "embedding", // Field name for the vector embeddings. Defaults to "embedding". }; // Ensure that the collection is empty const count = await collection.countDocuments(); if (count > 0) { await collection.deleteMany({}); } // Save online PDF as a file const rawData = await fetch("https://query.prod.cms.rt.microsoft.com/cms/api/am/binary/RE4HkJP"); const pdfBuffer = await rawData.arrayBuffer(); const pdfData = Buffer.from(pdfBuffer); fs.writeFileSync("atlas_best_practices.pdf", pdfData); // Load and split the sample data const loader = new PDFLoader(`atlas_best_practices.pdf`); const data = await loader.load(); const textSplitter = new RecursiveCharacterTextSplitter({ chunkSize: 200, chunkOverlap: 20, }); const docs = await textSplitter.splitDocuments(data); // Instantiate Atlas as a vector store const vectorStore = await MongoDBAtlasVectorSearch.fromDocuments(docs, new OpenAIEmbeddings(), dbConfig); } finally { // Ensure that the client will close when you finish/error await client.close(); } } run().catch(console.dir);
파일을 저장한 후 다음 명령을 실행하여 데이터를 Atlas에 로드합니다.
node get-started.js
팁
get-started.js
를 실행한 후 클러스터의 langchain_db.test
컬렉션으로 이동하여 Atlas UI에서 벡터 임베딩을 볼 수 있습니다.
Atlas Vector Search 인덱스 만들기
참고
Atlas Vector Search 검색 인덱스를 만들려면 Atlas 프로젝트에 대한 Project Data Access Admin
이상의 액세스 권한이 있어야 합니다.
벡터 저장소에서 벡터 검색 쿼리를 활성화하려면 langchain_db.test
컬렉션에 Atlas Vector Search 인덱스를 생성하세요.
get-started.js
파일에 정의한 비동기 함수에 다음 코드를 추가합니다. 이 코드는 다음 필드의 인덱싱을 지정하는 vectorSearch 유형의 인덱스를 생성합니다.
embedding
필드를 벡터 유형으로 지정합니다.embedding
필드에는 OpenAI의text-embedding-ada-002
임베딩 모델을 사용하여 생성된 임베딩이 포함되어 있습니다. 인덱스 정의는1536
벡터 차원을 지정하고cosine
를 사용하여 유사성을 측정합니다.loc.pageNumber
필드를 PDF의 페이지 번호를 기준으로 데이터를 사전 필터링하는 필터 유형으로 지정합니다.
또한 이 코드는 await 함수를 사용하여 검색 인덱스가 사용 전에 데이터와 동기화되었는지 확인합니다.
1 // Ensure index does not already exist, then create your Atlas Vector Search index 2 const indexes = await collection.listSearchIndexes("vector_index").toArray(); 3 if(indexes.length === 0){ 4 5 // Define your Atlas Vector Search Index 6 const index = { 7 name: "vector_index", 8 type: "vectorSearch", 9 definition: { 10 "fields": [ 11 { 12 "type": "vector", 13 "numDimensions": 1536, 14 "path": "embedding", 15 "similarity": "cosine" 16 }, 17 { 18 "type": "filter", 19 "path": "loc.pageNumber" 20 } 21 ] 22 } 23 } 24 25 // Run the helper method 26 const result = await collection.createSearchIndex(index); 27 console.log(result); 28 29 // Wait for Atlas to sync index 30 console.log("Waiting for initial sync..."); 31 await new Promise(resolve => setTimeout(() => { 32 resolve(); 33 }, 10000)); 34 }
파일을 저장한 후 다음 명령을 실행하여 Atlas Vector Search 인덱스를 생성합니다.
node get-started.js
Vector Search 쿼리 실행
이 섹션에서는 벡터화된 데이터에 대해 실행할 수 있는 다양한 쿼리를 설명합니다. 이제 인덱스를 만들었으므로 비동기 함수에 다음 코드를 추가하여 데이터에 대해 벡터 Atlas Search 쿼리를 실행합니다.
참고
데이터를 쿼리할 때 부정확한 결과가 발생하는 경우 인덱스 동기화에 예상보다 시간이 오래 걸릴 수 있습니다. setTimeout
함수의 숫자를 늘려 초기 동기화에 더 많은 시간을 허용합니다.
비동기 함수에 다음 코드를 추가하고 파일을 저장합니다.
다음 코드는 similaritySearch
메서드를 사용하여 string MongoDB Atlas security
에 대한 기본 시맨틱 검색을 수행합니다. 이 코드는 pageContent
및 pageNumber
필드만 포함하여 관련성에 따라 순위가 매겨진 문서 목록을 반환합니다.
// Basic semantic search const basicOutput = await vectorStore.similaritySearch("MongoDB Atlas security"); const basicResults = basicOutput.map((results => ({ pageContent: results.pageContent, pageNumber: results.metadata.loc.pageNumber, }))) console.log("Semantic Search Results:") console.log(basicResults)
다음 명령을 실행하여 쿼리를 실행합니다.
node get-started.js
... Semantic Search Results: [ { pageContent: 'MongoDB Atlas features extensive capabilities to defend,\n' + 'detect, and control access to MongoDB, offering among\n' + 'the most complete security controls of any modern\n' + 'database:', pageNumber: 18 }, { pageContent: 'Atlas provides encryption of data at rest with encrypted\n' + 'storage volumes.\n' + 'Optionally, Atlas users can configure an additional layer of\n' + 'encryption on their data at rest using the MongoDB', pageNumber: 19 }, { pageContent: 'automatically enabled.\n' + 'Review thesecurity section of the MongoDB Atlas\n' + 'documentationto learn more about each of the security\n' + 'features discussed below.\n' + 'IP Whitelisting', pageNumber: 18 }, { pageContent: '16Security\n' + '17Business Intelligence with MongoDB Atlas\n' + '18Considerations for Proofs of Concept\n' + '18MongoDB Stitch: Serverless Platform from MongoDB\n' + '19We Can Help\n' + '19Resources', pageNumber: 2 } ]
인덱싱된 필드를 부울, 숫자 또는 문자열 값과 비교하는 MQL 일치 표현식을 사용하여 데이터를 사전 필터링할 수 있습니다. 필터링하려는 모든 메타데이터 필드를 filter
유형으로 필터링하도록 인덱싱해야 합니다. 자세한 내용은 벡터 검색을 위해 필드를 인덱싱하는 방법을 참조하세요.
참고
이 튜토리얼 의 인덱스를 생성 할 때 loc.pageNumber
필드를 필터로 지정했습니다.
비동기 함수에 다음 코드를 추가하고 파일을 저장합니다.
다음 코드에서는 similaritySearch
메서드를 사용하여 문자열 MongoDB Atlas security
에 대한 시맨틱 검색을 수행합니다. 다음 매개변수를 지정합니다.
3
으로 반환할 문서 수$eq
연산자를 사용하여 17 페이지에 나타나는 문서만 일치시키는loc.pageNumber
필드에 대한 사전 필터입니다.
pageContent
및 pageNumber
필드만 사용하여 관련성에 따라 순위가 매겨진 문서 목록을 반환합니다.
// Semantic search with metadata filter const filteredOutput = await vectorStore.similaritySearch("MongoDB Atlas security", 3, { preFilter: { "loc.pageNumber": {"$eq": 17 }, } }); const filteredResults = filteredOutput.map((results => ({ pageContent: results.pageContent, pageNumber: results.metadata.loc.pageNumber, }))) console.log("Semantic Search with Filtering Results:") console.log(filteredResults)
다음 명령을 실행하여 쿼리를 실행합니다.
node get-started.js
... Semantic Search with Filter Results: [ { pageContent: 'BSON database dumps produced bymongodump.\n' + 'In the vast majority of cases, MongoDB Atlas backups\n' + 'delivers the simplest, safest, and most efficient backup', pageNumber: 17 }, { pageContent: 'Monitoring Solutions\n' + 'The MongoDB Atlas API provides integration with external\n' + 'management frameworks through programmatic access to\n' + 'automation features and alerts.\n' + 'APM Integration', pageNumber: 17 }, { pageContent: 'MongoDB Atlas backups are maintained continuously, just\n' + 'a few seconds behind the operational system. If the\n' + 'MongoDB cluster experiences a failure, the most recent', pageNumber: 17 } ]
다양성에 최적화된 의미적 관련성의 척도인 최대 한계 관련성(MMR)을 기반으로 시맨틱 검색을 수행할 수도 있습니다.
비동기 함수에 다음 코드를 추가하고 파일을 저장합니다.
다음 코드는 maxMarginalRelevanceSearch
메서드를 사용하여 문자열 MongoDB Atlas security
를 검색합니다. 또한 다음 선택적 매개변수를 정의하는 객체를 지정합니다.
k
반환되는 문서 수를3
개로 제한합니다.fetchK
MMR 알고리즘에 문서를 전달하기 전에10
개 문서만 가져옵니다.
pageContent
및 pageNumber
필드만 사용하여 관련성에 따라 순위가 매겨진 문서 목록을 반환합니다.
// Max Marginal Relevance search const mmrOutput = await vectorStore.maxMarginalRelevanceSearch("MongoDB Atlas security", { k: 3, fetchK: 10, }); const mmrResults = mmrOutput.map((results => ({ pageContent: results.pageContent, pageNumber: results.metadata.loc.pageNumber, }))) console.log("Max Marginal Relevance Search Results:") console.log(mmrResults)
다음 명령을 실행하여 쿼리를 실행합니다.
node get-started.js
... Max Marginal Relevance Search Results: [ { pageContent: 'MongoDB Atlas features extensive capabilities to defend,\n' + 'detect, and control access to MongoDB, offering among\n' + 'the most complete security controls of any modern\n' + 'database:', pageNumber: 18 }, { pageContent: 'automatically enabled.\n' + 'Review thesecurity section of the MongoDB Atlas\n' + 'documentationto learn more about each of the security\n' + 'features discussed below.\n' + 'IP Whitelisting', pageNumber: 18 }, { pageContent: '16Security\n' + '17Business Intelligence with MongoDB Atlas\n' + '18Considerations for Proofs of Concept\n' + '18MongoDB Stitch: Serverless Platform from MongoDB\n' + '19We Can Help\n' + '19Resources', pageNumber: 2 } ]
데이터에 대한 질문에 답변
이 섹션에서는 Atlas Vector Search와 LangChain을 사용하여 두 가지 서로 다른 RAG 를 구현하는 방법을 설명합니다. 이제 Atlas Vector Search를 사용하여 의미적으로 유사한 문서를 조회했으므로, 다음 코드 예제를 사용하여 LLM 이 Atlas Vector Search에서 반환된 문서에 대한 질문에 답변하도록 프롬프트를 표시합니다.
비동기 함수에 다음 코드를 추가하고 파일을 저장합니다.
이 코드는 다음을 수행합니다.
Atlas Vector Search를 리트리버 로 인스턴스화합니다. 의미적으로 유사한 문서를 쿼리합니다.
LangChain 프롬프트 템플릿을 정의해 LLM에게 이러한 문서를 귀하의 질의에 대한 맥락으로 사용하도록 지시합니다. LangChain은 이러한 문서를
{context}
입력 변수에 전달하고 쿼리를{question}
변수에 전달합니다.OpenAI의 채팅 모델을 사용하여 프롬프트에 따라 컨텍스트 인식 응답을 생성하는 체인을 구성합니다.
Atlas 보안 권장 사항에 대한 샘플 쿼리를 체인에 표시합니다.
LLM의 응답과 컨텍스트로 사용된 문서를 반환합니다.
// Implement RAG to answer questions on your data const retriever = vectorStore.asRetriever(); const prompt = PromptTemplate.fromTemplate(`Answer the question based on the following context: {context} Question: {question}`); const model = new ChatOpenAI({}); const chain = RunnableSequence.from([ { context: retriever.pipe(formatDocumentsAsString), question: new RunnablePassthrough(), }, prompt, model, new StringOutputParser(), ]); // Prompt the LLM const question = "How can I secure my MongoDB Atlas cluster?"; const answer = await chain.invoke(question); console.log("Question: " + question); console.log("Answer: " + answer); // Return source documents const retrievedResults = await retriever.getRelevantDocuments(question) const documents = retrievedResults.map((documents => ({ pageContent: documents.pageContent, pageNumber: documents.metadata.loc.pageNumber, }))) console.log("\nSource documents:\n" + JSON.stringify(documents, 1, 2))
다음 명령을 실행하여 파일을 실행합니다.
파일을 저장한 후 다음 명령을 실행합니다. 생성된 응답은 다를 수 있습니다.
node get-started.js
... Question: How can I secure my MongoDB Atlas cluster? Answer: You can secure your MongoDB Atlas cluster by taking advantage of extensive capabilities to defend, detect, and control access to MongoDB. You can also enable encryption of data at rest with encrypted storage volumes and configure an additional layer of encryption on your data. Additionally, you can set up global clusters on Amazon Web Services, Microsoft Azure, and Google Cloud Platform with just a few clicks in the MongoDB Atlas UI. Source documents: [ { "pageContent": "MongoDB Atlas features extensive capabilities to defend,\ndetect, and control access to MongoDB, offering among\nthe most complete security controls of any modern\ndatabase:", "pageNumber": 18 }, { "pageContent": "throughput is required, it is recommended to either\nupgrade the Atlas cluster or take advantage of MongoDB's\nauto-shardingto distribute read operations across multiple\nprimary members.", "pageNumber": 14 }, { "pageContent": "Atlas provides encryption of data at rest with encrypted\nstorage volumes.\nOptionally, Atlas users can configure an additional layer of\nencryption on their data at rest using the MongoDB", "pageNumber": 19 }, { "pageContent": "You can set up global clusters — available on Amazon Web\nServices, Microsoft Azure, and Google Cloud Platform —\nwith just a few clicks in the MongoDB Atlas UI. MongoDB", "pageNumber": 13 } ]
비동기 함수에 다음 코드를 추가하고 파일을 저장합니다.
이 코드는 다음을 수행합니다.
Atlas Vector Search를 리트리버 로 인스턴스화합니다. 의미적으로 유사한 문서를 쿼리합니다. 또한 다음과 같은 선택적 매개변수도 지정합니다.
searchType
을mmr
로 설정하면 Atlas Vector Search가 최대 한계 관련성(MMR)을 기반으로 문서를 검색함을 지정합니다.filter
log.pageNumbers
필드에 사전 필터를 추가하여 17페이지에만 표시되는 문서를 포함합니다.다음은 MMR 관련 매개변수입니다.
fetchK
MMR 알고리즘에 문서를 전달하기 전에20
개 문서만 가져옵니다.lambda
0
~1
사이의 값을 사용하여 결과 간의 다양성 정도를 결정합니다. 여기서0
은 최대 다양성을 나타내고1
은 최소 다양성을 나타냅니다.
LangChain 프롬프트 템플릿을 정의해 LLM에게 이러한 문서를 귀하의 질의에 대한 맥락으로 사용하도록 지시합니다. LangChain은 이러한 문서를
{context}
입력 변수에 전달하고 쿼리를{question}
변수에 전달합니다.OpenAI의 채팅 모델을 사용하여 프롬프트에 따라 컨텍스트 인식 응답을 생성하는 체인을 구성합니다.
Atlas 보안 권장 사항에 대한 샘플 쿼리를 체인에 표시합니다.
LLM의 응답과 컨텍스트로 사용된 문서를 반환합니다.
// Implement RAG to answer questions on your data const retriever = await vectorStore.asRetriever({ searchType: "mmr", // Defaults to "similarity filter: { preFilter: { "loc.pageNumber": { "$eq": 17 } } }, searchKwargs: { fetchK: 20, lambda: 0.1, }, }); const prompt = PromptTemplate.fromTemplate(`Answer the question based on the following context: {context} Question: {question}`); const model = new ChatOpenAI({}); const chain = RunnableSequence.from([ { context: retriever.pipe(formatDocumentsAsString), question: new RunnablePassthrough(), }, prompt, model, new StringOutputParser(), ]); // Prompt the LLM const question = "How can I secure my MongoDB Atlas cluster?"; const answer = await chain.invoke(question); console.log("Question: " + question); console.log("Answer: " + answer); // Return source documents const retrievedResults = await retriever.getRelevantDocuments(question) const documents = retrievedResults.map((documents => ({ pageContent: documents.pageContent, pageNumber: documents.metadata.loc.pageNumber, }))) console.log("\nSource documents:\n" + JSON.stringify(documents, 1, 2))
다음 명령을 실행하여 파일을 실행합니다.
파일을 저장한 후 다음 명령을 실행합니다. 생성된 응답은 다를 수 있습니다.
node get-started.js
... Question: How can I secure my MongoDB Atlas cluster? Answer: To secure your MongoDB Atlas cluster, you can take the following measures: 1. Enable authentication and use strong, unique passwords for all users. 2. Utilize encryption in transit and at rest to protect data both while in motion and at rest. 3. Configure network security by whitelisting IP addresses that can access your cluster. 4. Enable role-based access control to limit what actions users can perform within the cluster. 5. Monitor and audit your cluster for suspicious activity using logging and alerting features. 6. Keep your cluster up to date with the latest patches and updates to prevent vulnerabilities. 7. Implement backups and disaster recovery plans to ensure you can recover your data in case of data loss. Source documents: [ { "pageContent": "BSON database dumps produced bymongodump.\nIn the vast majority of cases, MongoDB Atlas backups\ndelivers the simplest, safest, and most efficient backup", "pageNumber": 17 }, { "pageContent": "APM Integration\nMany operations teams use Application Performance\nMonitoring (APM) platforms to gain global oversight of\n15", "pageNumber": 17 }, { "pageContent": "performance SLA.\nIf in the course of a deployment it is determined that a new\nshard key should be used, it will be necessary to reload the\ndata with a new shard key because designation and values", "pageNumber": 17 }, { "pageContent": "to the database.\nReplication Lag\nReplication lag is the amount of time it takes a write\noperation on the primary replica set member to replicate to", "pageNumber": 17 } ]
다음 단계
MongoDB는 다음과 같은 개발자 리소스도 제공합니다.