Haystack 統合を使い始める

項目一覧

バックグラウンド
前提条件
環境を設定する
Atlas Vector Search インデックスの作成
Atlas でのカスタムデータの保存
データに関する質問に答えます
次のステップ

Atlas Vector Searchと Haystack を統合できますを使用してカスタムLLM アプリケーションを構築し、検索拡張生成（RAG ）を実装します。このチュートリアルでは、Haystack と Atlas Vector Search の使用を開始して、データに対してセマンティック検索を実行し、 RAG実装を構築する方法を説明します。具体的には、次のアクションを実行します。

環境を設定します。
Atlas Vector Search インデックスの作成。
カスタムデータを Atlas に保存します。
Atlas Vector Search を使用してデータの質問に答え、 RAGを実装します。

このチュートリアルの実行可能なバージョンを Python エディタとして作業します。

バックグラウンド

Haystack は、 LLM 、埋め込みモデル、ベクトル検索を使用してカスタムアプリケーションを構築するためのフレームワークです。 Atlas Vector Searchを Haystack と統合することで、 Atlasをベクトルデータベースとして使用し、 Atlas Vector Searchを使用してセマンティックで類似したドキュメントを検索してRAGを実装することができます。 RGRAG Atlas Vector Searchの詳細については、「を使用した検索拡張生成（RAG ）」をしてください。

前提条件

Atlas のサンプルデータセットからの映画データを含むコレクションを使用します。

Atlas アカウントで、MongoDB バージョン 6.0.11 または7.0.2 以降（RCs を含む）のクラスターを実行している。IP アドレスが Atlas プロジェクトのアクセスリストに含まれていることを確認してください。詳細については、クラスターの作成を参照してください。
OpenAI API キー。API リクエストに使用できるクレジットを持つ OpenAI アカウントが必要です。OpenAI アカウントの登録について詳しく知りたい場合は、 OpenAI API ウェブサイトをご覧ください。
Colas などの Python プロジェクトを実行するためのノート。

環境を設定する

このチュートリアルの環境を設定します。 .ipynb 拡張子を持つファイルを保存して、インタラクティブPythonノートを作成します。このノートはPythonコードスニペットを個別に実行でき、このチュートリアルのコードを実行するために使用します。

ノートク環境を設定するには、次の手順に従います。

依存関係をインストールしてインポートします。

次のコマンドを実行します:
```
pip install --quiet --upgrade mongodb-atlas-haystack pymongo
```

必要なパッケージをインポートするには、次のコードを実行します。

import os
from haystack import Pipeline, Document
from haystack.document_stores.types import DuplicatePolicy
from haystack.components.writers import DocumentWriter
from haystack.components.generators import OpenAIGenerator
from haystack.components.builders.prompt_builder import PromptBuilder
from haystack.components.embedders import OpenAITextEmbedder, OpenAIDocumentEmbedder
from haystack_integrations.document_stores.mongodb_atlas import MongoDBAtlasDocumentStore
from haystack_integrations.components.retrievers.mongodb_atlas import MongoDBAtlasEmbeddingRetriever
from pymongo import MongoClient
from pymongo.operations import SearchIndexModel

環境変数を定義します。

次のコードを実行し、プレースホルダーを次の値に置き換えます。

OpenAI API キー。
Atlas クラスターのSRV接続文字列。

os.environ["OPENAI_API_KEY"] = "<api-key>"
os.environ["MONGO_CONNECTION_STRING"]= "<connection-string>"

注意

接続stringには、次の形式を使用する必要があります。

mongodb+srv://<db_username>:<db_password>@<clusterName>.<hostname>.mongodb.net

Atlas Vector Search インデックスの作成

注意

Atlas Vector Search インデックスを作成するには、Atlas プロジェクトに対するProject Data Access Admin以上のアクセス権が必要です。

このセクションでは、カスタムデータを保存するためのhaystack_dbデータベースとtestコレクションを作成します。次に、データに対してベクトル検索クエリを有効にするために、Atlas Vector Search インデックスを作成します。

次のコードを実行して、Atlas クラスターに接続します。

client = MongoClient(os.environ.get("MONGO_CONNECTION_STRING"))

`haystack_db.test` コレクションを作成します。

次のコードを実行して、 haystack_dbデータベースとtestコレクションを作成します。

# Create your database and collection
db_name = "haystack_db"
collection_name = "test"
database = client[db_name]
database.create_collection(collection_name)
# Define collection
collection = client[db_name][collection_name]

Atlas Vector Search インデックスを定義します。

次のコードを実行して、 vectorSearchタイプのインデックスを作成します。 embeddingフィールドには、OpenAI のtext-embedding-ada-002埋め込みモデルを使用して作成する埋め込みが含まれます。インデックス定義では、 1536ベクトル次元を指定し、 cosineを使用して類似性を測定します。

# Create your index model, then create the search index
search_index_model = SearchIndexModel(
   definition={
      "fields": [
         {
            "type": "vector",
            "path": "embedding",
            "numDimensions": 1536,
            "similarity": "cosine"
         }
      ]
   },
   name="vector_index",
   type="vectorSearch"
)
collection.create_search_index(model=search_index_model)

インデックスの構築には約 1 分かかります。構築中、インデックスは最初の同期状態になります。構築が完了したら、コレクション内のデータのクエリを開始できます。

Atlas でのカスタムデータの保存

このセクションでは、ドキュメントストアと呼ばれるベクトルデータベースとして Atlas をインスタンス化します。次に、カスタムデータからベクトル埋め込みを作成し、これらのドキュメントを Atlas のコレクションに保存します。次のコードスニペットをノートに貼り付けて実行します。

Atlas をドキュメントストアとしてインスタンス化します。

次のコードを実行して、Atlas をドキュメントストアとしてインスタンス化します。このコードは、Atlas クラスターへの接続を確立し、次の項目を指定します。

haystack_db ドキュメントの保存に使用される Atlas データベースとコレクションであるtestと :
vector_index セマンティック検索クエリを実行するために使用されるインデックス。

document_store = MongoDBAtlasDocumentStore(
   database_name="haystack_db",
   collection_name="test",
   vector_search_index="vector_index",
)

Atlas クラスターにサンプルデータをロードします。

このコードは、いくつかのサンプルドキュメントを定義し、パイプラインを実行します次のコンポーネントを含む。

埋め込み OpenAI により、ドキュメントがベクトル埋め込みに変換されます。
ドキュメント書込みをクリックして、ドキュメントストアにサンプルドキュメントとその埋め込みを入力します。

# Create some example documents
documents = [
   Document(content="My name is Jean and I live in Paris."),
   Document(content="My name is Mark and I live in Berlin."),
   Document(content="My name is Giorgio and I live in Rome."),
]
# Initializing a document embedder to convert text content into vectorized form.
doc_embedder = OpenAIDocumentEmbedder()
# Setting up a document writer to handle the insertion of documents into the MongoDB collection.
doc_writer = DocumentWriter(document_store=document_store, policy=DuplicatePolicy.SKIP)
# Creating a pipeline for indexing documents. The pipeline includes embedding and writing documents.
indexing_pipe = Pipeline()
indexing_pipe.add_component(instance=doc_embedder, name="doc_embedder")
indexing_pipe.add_component(instance=doc_writer, name="doc_writer")
# Connecting the components of the pipeline for document flow.
indexing_pipe.connect("doc_embedder.documents", "doc_writer.documents")
# Running the pipeline with the list of documents to index them in MongoDB.
indexing_pipe.run({"doc_embedder": {"documents": documents}})

Calculating embeddings: 100%|██████████| 1/1 [00:00<00:00,  4.16it/s]
{'doc_embedder': {'meta': {'model': 'text-embedding-ada-002',
   'usage': {'prompt_tokens': 32, 'total_tokens': 32}}},
 'doc_writer': {'documents_written': 3}}

Tip

サンプルコードを実行した後、クラスター内のhaystack_db.testコレクションに移動すると、Atlas UI でベクトル埋め込みを表示できます。

データに関する質問に答えます

このセクションでは、RAG Atlas Vector Searchと Haystack を使用してアプリケーションに実装する方法を説明します。

次のコードは、パイプラインを定義して実行します次のコンポーネントが含まれます。

OpenAIテキスト埋め込み埋め込みクエリから埋め込みを作成します。
MongoDBAtlas埋め込みRetriggers 検索要素クエリ埋め込みと同様の埋め込みをドキュメントストアから検索します。
PromptBuilder は、プロンプトのコンテキストとして、検索されたドキュメントを使用するように LLMに指示するプロンプトを渡します。
OpenAIGenerator ジェネレーターの LLMLM を使用してコンテキストを認識する応答を生成します。

この例では、サンプルクエリ Where does Mark live? を使用してLLMをプロンプトします。 LLMは、 Atlasに保存したカスタムデータから、正確でコンテキストを認識する応答を生成します。

# Template for generating prompts for a movie recommendation engine.
prompt_template = """
    You are an assistant allowed to use the following context documents.\nDocuments:
    {% for doc in documents %}
        {{ doc.content }}
    {% endfor %}
    \nQuery: {{query}}
    \nAnswer:
"""
# Setting up a retrieval-augmented generation (RAG) pipeline for generating responses.
rag_pipeline = Pipeline()
rag_pipeline.add_component("text_embedder", OpenAITextEmbedder())
# Adding a component for retrieving related documents from MongoDB based on the query embedding.
rag_pipeline.add_component(instance=MongoDBAtlasEmbeddingRetriever(document_store=document_store,top_k=15), name="retriever")
# Building prompts based on retrieved documents to be used for generating responses.
rag_pipeline.add_component(instance=PromptBuilder(template=prompt_template), name="prompt_builder")
# Adding a language model generator to produce the final text output.
rag_pipeline.add_component(instance=OpenAIGenerator(), name="llm")
# Connecting the components of the RAG pipeline to ensure proper data flow.
rag_pipeline.connect("text_embedder.embedding", "retriever.query_embedding")
rag_pipeline.connect("retriever", "prompt_builder.documents")
rag_pipeline.connect("prompt_builder", "llm")
# Run the pipeline
query = "Where does Mark live?"
result = rag_pipeline.run(
  {
      "text_embedder": {"text": query},
      "prompt_builder": {"query": query},
  });
print(result['llm']['replies'][0])

Mark lives in Berlin.

次のステップ

MongoDBは、次の開発者リソースも提供しています。

以下も参照してください。

戻る

C#統合

整数AI