绿色小软件下载
当前位置:首页 >> 业界风云 >> 用于机器学习的 400M 图像-文本对的免费开源数据集:Laion-400M

用于机器学习的 400M 图像-文本对的免费开源数据集:Laion-400M

比尔·盖茨 业界风云 5

Laion-400M 是一个庞大的免费数据集,包含用于机器学习的 400M 图像文本对。在这里,您可以使用此数据集来训练您的 AI 模型。该开放数据集中的图像-文本对是在 2014 年至 2021 年间通过从 Common Crawl 网页中抓取它们来提取的。该数据集中的图像和文本已使用 OpenAI 的 CLIP 通过计算嵌入之间的余弦相似度进行过滤,并删除了相似度低于 0.3 的图像和文本。这里的 0.3 阈值是通过人工评估确定的,这实际上对于估计图像-文本数据的语义相当不错。该数据集的可下载内容是 NumPy 文件,它们只不过是 CLIP 嵌入。除此之外,还有图像嵌入的镶木地板文件和 KNN 索引。这里需要提到的一点是,即使这些数据已经过滤过,它仍然有 NSFW 图像。仅从中删除了非法和非法图像数据。NSFW 内容在元数据中标记,因此如果您不希望这些图像用于您的工作,请不要忘记排除它们。用于机器学习的 400M 图像-文本对的免费开源数据集:Laion-400MLaion-400M 包括一个 10 TB 的 Web 数据集,其中包含图像和标题,以及额外的 1 TB CLIP 嵌入。除了这两个索引之外,还有 2 个小型 6 GB KNN 索引。还有一些其他关于它的技术细节,您可以在主网站上阅读更多相关信息。如果您以前使用过 AI 数据集,那么您可以以相同的方式使用它。首先,您需要良好的互联网连接才能下载文件,因为它们非常大。您可以使用 wget 直接下载文件,也可以通过 torrent 下载它们。您可以在主网站上找到链接 点击此处.wget -m -np -c -U “eye02” -w 2 -R “index.html*” “https://the-eye.eu/public/AI/cah/laion400m-met-release/laion400m-embeddings/”在我开头添加的屏幕截图中,您可以看到一些示例图像。不仅如此,还有一个简单的 Web 应用程序可用于可视化此数据集。这基本上是一个搜索工具,您可以通过输入一些文本或图像来搜索。根据您使用的输入,它会相应地向您显示结果。下面,您可以看到文本和图像搜索的实际效果。这样,您就可以下载甚至体验使用这个庞大的图文数据集。对于 ML 和 AI 程序员来说,它确实是工具的瑰宝。他们可以利用它的力量来提供处理计算机视觉的很酷的程序和软件。关闭的思考:如果您热衷于数据科学,那么您可以立即下载此 Laion-400M 数据集并开始使用它。数据是巨大的,但只要你知道自己在做什么,你就会很好。该数据集可用于构建智能文本到图像搜索引擎。或者,甚至仅从自然文本或其他任何东西生成图像,因为可能性是无限的。

用于机器学习的 400M 图像-文本对的免费开源数据集:Laion-400M

协助本站SEO优化一下,谢谢!
关键词不能为空

免责声明

本站有部分为网络搜集整理而来, 如有版权及内容质疑,请即刻联系站长整改。分享是美德,欢迎转载,敬请注明出处

同类推荐
控制面板
您好,欢迎到访网站!
  查看权限
标签列表