分类目录归档：机器学习

【置顶】最新火热开源LLM<WizardMath-70B>

发表评论

409 views

WizardMath-70B 的性能优于（在 GSM8K 上）最著名的闭源 LLM，例如 ChatGPT3.5、Claude Instant1 和 PaLM2 540B？🤯

WizardMath 在 GSM8k 基准测试中获得第五名，超过了Claude Instant 1（81.6 vs. 80.9）、ChatGPT（81.6 vs. 80.8）和 PaLM 2 540B（81.6 vs. 80.7）

Gradio演示在这里

70B：http://47.103.63.15:50083/
13B：http://47.103.63.15:50082/
7B：http://47.103.63.

【置顶】使用text split explorer检查调整文本分割策略

发表评论

483 views

许多最重要的LLM 应用都涉及将LLM连接到外部数据源。执行此操作的先决条件是将数据提取为LLM可以轻松连接到的格式。大多数时候，这意味着将数据提取到矢量存储中。这样做的先决条件是将原始文本分割成更小的块。

虽然这看起来微不足道，但这是一个微妙且被忽视的步骤。分割文本时，您需要确保每个块都具有连贯的信息 - 例如，您不只是想在句子中间进行分割。“连贯信息”的含义也可能因文本类型而异。 - 例如，使用 Markdown 时，您##可能希望将它们保留在一起，而对于拆分 Python 代码，您可能希望将所有类和方法保留在一起。

该工具旨在帮助探索不同类型的文本拆分。可以调整不同的参数并选择不同

【置顶】LangChain结合Airbyte-让llm agent 使用更多工具

发表评论

317 views

Airbyte

Airbyte 提供数百个资源和强大的工具

LangChain

LangChain 提供先进的转型逻辑和最大的集合集合与包装模型和 vectorstores

首先，Airbyte 提供了数百个数据源以及强大的编排逻辑，同时还提供了创建自定义数据源的工具。让我们聚焦于编排逻辑。当您创建一个用于访问数据索引的聊天机器人时，您希望的不仅仅是建立一次索引然后忘记它。您希望能够按照计划定期重新索引，以保持数据的最新状态。而这正是 Airbyte 擅长并一直在不断发展的数据管道。

其次，数据摄取过程不仅仅是将数据从源头移动到目标地。为了实现高效的检索，还需要进行一些重要、关键而微妙的转换

【置顶】使用AWS CDK部署开源大模型LLM【LLMOps】

发表评论

300 views

使用AWS CDK部署开源大模型

随着Llama 2和Falcon等开源大模型的出现，人们对于AI的潜力的认识正在迅速改变。这些新的开源大模型将有助于实现多个新的业务用例或改进/优化现有的用例。

然而，将大模型部署和管理到生产环境中需要专门的基础设施和工作流程。在本文中，我们将向您展示如何使用基础设施即代码（Infrastructure as Code）和AWS Cloud Development Kit（AWS CDK）来部署和管理Llama 2。AWS Cloud Development Kit（AWS CDK）是一个开源的软件开发框架，允许您使用代码来定义、提供和管理AWS上的云基础设施

【置顶】多模态转录---包含唇语【视听语音模型】MuAViC

发表评论

286 views

尝试这个多模态的转录模型，深度学习在视听结合方向上又向前迈进了一步

muavic 多模态转录---唇语

期待Colab notebook 示例的开放！

基于 Llama 2 微调的Giraffe

发表评论

236 views

Giraffe 简介

新的长上下文法学硕士Giraffe 是在 Llama 和 Llama 2 上进行微调的**

Giraffe 扩展了上下文长度，包括 4K、16K 和 32K（在 Llama 2 上进行了微调）。

发布内容包括： - 论文 - 训练代码 - 评估数据集， - 评估脚本这些模型可用于研究需要更大上下文容量的用例，例如从大型数据语料库中检索信息。它还可以帮助减少需要在较长文档中进行更复杂检索的任务中的错误

。这些模型还可以更好地支持人工智能驱动的聊天机器人，以维持更长时间的对话。本文还报告了几种

上下文长度外推方法的实验结果。他们还提出了自己的称为截断的策略，用于修

Skeleton-of-Thoughts 思想骨架：提高LLM的效率和答案质量

发表评论

357 views

Skeleton-of-Thoughts 思想骨架

“思想骨架：大型语言模型可以并行解码” 提出了一种新的方法来解决LLM中常遇到的生成延迟问题。

这个新方法叫做“思想骨架”（SoT）。这篇论文指出，LLM中高生成延迟的原因之一是顺序解码方法。就是顺序一个个生成词语，导致计算时间很长。为了解决这个问题，研究人员提出了SoT方法，它教导LLM先生成答案的“骨架”，然后通过并行调用或批处理来并行生成每个“骨架点”的内容。这个方法的好处有好几个哦！

首先，SoT大大提高了生成速度，研究人员观察到在11个不同的法学硕士中，使用SoT可以加速高达2.39倍！这个加速是通过并行化生成过程来实现的，从而

国内订阅chatGPT plus一劳永逸的方法

发表评论

493 views

具体方法

使用美区paypal绑定国内信用卡，直接在app里内购，每月paypal扣费自动续定，稳定可靠，长期有效 chatgpt chatgptplus 美区paypal注册官方地址：https://www.paypal.com/us/webapps/mpp... 美区苹果ID注册官方地址：https://appleid.apple.com 美区身份生成网站：https://www.fakepersongenerator.com/R...

注册paypal 和 apple id 等注意事项

1、淘宝或其他网站购买美国手机卡，月租最便宜能收短信即可；卖家有详细的激活使用教程 2、用美国手机号

LMFlow：一个可扩展的轻量级工具包，可简化一般大型基础模型的微调和推理。

发表评论

469 views

LMFlow：一个可扩展的轻量级工具包，可简化一般大型基础模型的微调和推理。

LMFlow一个可扩展、方便、高效的工具箱，用于微调大型机器学习模型，旨在用户友好、快速、可靠，并且可供整个社区使用。

LMFlow 提供四种演示，其中包括

在线服务：如果您不想运行任何代码，只想尝试我们的模型，我们会部署经过指令调整的 LLaMA 您来尝试一下。
Colab 聊天机器人（shell）：基于 shell 的交互式聊天机器人，可让您轻松在 colab 上部署聊天机器人。
Colab 聊天机器人（Web）：基于 Web 的交互式聊天机器人，您可以在 Colab 上轻松部署自己的聊天机器人。
本地部署：我

机器学习基础--EM算法

发表评论

901 views

EM算法

Tags: 参数估计场景: 1. 半监督学习分类器 2. 数据预处理：填充特征缺失值 3. 求解隐马尔科夫模型中的发射概率 4. 聚类

原理简介

概率模型中如果全部是观测变量，在给定数据之后，直接可以用最大似然估计或者贝叶斯估计模型参数

概率模型中如果存在隐变量就不能直接估计

EM是迭代求解概率模型中的隐变量，分两步，因为要求解期望【均值】，又称为期望最大极大算法

E步求解期望
M步求解极大

为啥用EM算法估计模型参数而不用最大似然估计

概率模型中包含隐变量的时候，最大似然依据的是已知样本，而隐变量没有对应样本，无法求解【目标函数包含了未观测数据的分布的积分和对数】
公式