这篇文章介绍了 Google 提供的免费人工智能文件类型识别工具。Magika 是由 Google 开发的人工智能驱动的文件类型识别系统。它可以准确检测二进制和文本文件类型,准确率超过 99%。该工具使用使用 Keras 设计和训练的高度优化的深度学习模型。它还与 VirusTotal 集成,以提高效率和准确性。Magika 可作为独立实用程序、Python 库和实验性 npm 包使用。Magiska 利用重量仅为 1 MB 的模型,可在几毫秒内精确识别文件。这使得 Magiska 即使在单个 CPU 上也能快速运行。它支持多种内容类型,并以 99%+ 的平均精度和召回率优于其他传统工具。初始版本不针对多语言检测,这意味着它不适用于包含多种内容类型的文件。Magika 是在 Google 开源项目下发布的,您可以在此处跟踪该项目。它是在 Apache2 许可证下开源的,可以在 GitHub 上找到。当您在这里时,请查看我们的其他帖子 如何使用人工智能从照片中识别动物?检测媒体纵和偏见的免费人工智能工具:HonestyMeter。人工智能驱动的文件类型识别工具:MagikaMagika 在 100 多种内容类型的超过 25M 文件的数据集上进行了训练。您可以使用网络演示在线试用该工具。此演示在您的 Web 浏览器中本地运行该工具。它从一个演示文件开始,您可以删除该文件并添加文件。能够一次处理多个文件。您只需将文件直接拖放到该工具即可。当您这样做时,它会立即开始处理它们并列出所需的结果。结果在左侧列出可能的内容类型,在右侧列出其概率。我使用 JavaScript 文件来测试这个工具。上面附上的屏幕截图显示了结果。正如您在屏幕截图中看到的,Magika 以 100% 的概率将 javascript 检测为内容类型。除此之外,它还检测了其他内容类型,包括 shell、html、markdown、rst 等,以及它们各自的概率。这样,您就可以使用 Magika 快速准确地识别文件内容。在这里试一试。结束语Magika 是一个方便的工具,无需打开文件即可快速了解文件的内容类型。Python API 可用作 Python 命令行,使开发人员可以轻松使用 Magika。通过一个简单的命令,任何人都可以分析和检测文件内容。结果快速准确。Magika 确实有一些限制,随着时间的推移,随着其开源开发和社区贡献,这些限制可能会过时。


 
                 
                 
                







