Jina AI 是一家專注於開源神經搜索技術的公司,致力於為全球開發者提供高效且易於使用的資訊檢索工具。 自 2020 年成立以來,Jina AI 開發了多種產品,協助開發者構建和部署多模態 AI 應用。
主要產品與功能:
-
DeepSearch:一款能夠深入搜索、閱讀並推理,直至找到最佳答案的工具。
-
Reader:透過在 URL 前添加
r.jina.ai
,將網頁內容轉換為適合大型語言模型(LLM)處理的 Markdown 格式,提升 AI 對網頁內容的理解能力。 -
Embeddings:提供世界級的多模態、多語言嵌入模型,支援長達 8192 個 token 的輸入,適用於長文檔的處理。
-
Reranker:高效的神經檢索工具,旨在最大化搜索結果的相關性。
-
Classifier:支援零樣本和少樣本的圖像與文字分類,提升分類任務的效率。
-
Segmenter:將長文本切分為段落並進行標記,方便後續處理。
介紹其中的 Reader API,Reader API 是一款專門用來提升大型語言模型(LLM)和 RAG 系統的輸入品質的工具。這項服務能將任何網址內容轉化成適合LLM的格式,幫助使用者簡化從網頁抓取數據的流程。它自動去除HTML中的雜訊,如標籤和 script,只提取核心內容。此外,Reader API 還支持即時串流模式,可加快處理速度,且完全免費,無需API密鑰即可使用。對於需要高品質網頁內容輸入的開發者來說,這是一個極佳的選擇。
稍微測試一下,你可以把想要提取資料的網址輸入,經過一段時間就可以過濾出資訊,然後你就可以在下面問他問題了。
如果會寫程式的話,可以透過串接這隻 API 做到在任何服務上增加一個介紹網站的功能,有興趣的可以嘗試看看。