使用text split explorer检查调整文本分割策略


许多最重要的LLM 应用 都涉及将LLM连接到外部数据源。执行此操作的先决条件是将数据提取为LLM可以轻松连接到的格式。 大多数时候,这意味着将数据提取到矢量存储中。这样做的先决条件是将原始文本分割成更小的块。

虽然这看起来微不足道,但这是一个微妙且被忽视的步骤。分割文本时,您需要确保每个块都具有连贯的信息 - 例如,您不只是想在句子中间进行分割。“连贯信息”的含义也可能因文本类型而异。 - 例如,使用 Markdown 时,您##可能希望将它们保留在一起,而对于拆分 Python 代码,您可能希望将所有类和方法保留在一起。

该工具旨在帮助探索不同类型的文本拆分。可以调整不同的参数并选择不同类型的分配器。 通过粘贴文本文件,可以将分割器应用于该文本并查看分割结果。 还会向您显示一个代码片段,可以在应用程序中复制并使用该代码片段。

GitHub厂库: https://github.com/langchain-ai/text-split-explorer

在线试用 Hosted Playground: https://share.streamlit.io/app/langchain-text-splitter/