В четверг разработчик французской большой языковой модели (LLM) Мистраль выпустил новый API для разработчиков, которые обрабатывают сложные документы PDF. Mistral OCR — это API оптического распознавания символов (OCR), который может превратить любой PDF в текстовый файл, чтобы модели ИИ было проще для проглатывания.
LLMS, которые лежат в основе популярных инструментов Genai, таких как CHATGPT Openai, особенно хорошо работают с необработанным текстом. Таким образом, компании, которые хотят создать свой собственный рабочий процесс искусственного интеллекта, знают, что стало чрезвычайно важным для хранения и индекса данных в чистом формате, чтобы эти данные могли быть использованы для обработки искусственного интеллекта.
В отличие от большинства API OCR, Mistral OCR является мультимодальным API, что означает, что он может обнаружить, когда есть иллюстрации и фотографии, переплетенные с блоками текста. API OCR создает ограничивающие ящики вокруг этих графических элементов и включает их в вывод.
Mistral OCR также не просто выводит большую стену текста; Вывод форматируется в Markdown, синтаксисе форматирования, который разработчики используют для добавления ссылок, заголовков и других элементов форматирования в простой текстовый файл.
LLM в значительной степени полагаются на Markdown для их наборов обучающих данных. Точно так же, когда вы используете помощника ИИ, такого как Le Chat’s или CHATGPT в Мишстрале или Openai, они часто генерируют разметку для создания списков пулей, добавления ссылок или размещения некоторых элементов жирным шрифтом. Помощники приложений плавно отформатируют выход разметки в богатый выход текста. Вот почему необработанный текст — и Markdown — стал более важным в последние годы, когда Genai вырос.
«За прошедшие годы организации накопили многочисленные документы, часто в форматах PDF или слайда, которые недоступны для LLM, особенно RAG Systems. С Mistral OCR наши клиенты теперь могут преобразовать богатые и сложные документы в читаемый контент на всех языках »,-сказал соучредитель Мистраль и директор по науке Гийом Лэмпл.
«Это важный шаг к широко распространенному принятию помощников искусственного интеллекта в компаниях, которые необходимо упростить доступ к их обширной внутренней документации», — добавил он.
Mistral OCR доступен на собственной платформе API API Mistral или через ее облачные партнеры (AWS, Azure, Google Cloud Vertex и т. Д.). А для компаний, работающих с классифицированными или конфиденциальными данными, Mistral предлагает локальное развертывание.
По данным парижской компании ИИ, Мистраль OCR работает лучше, чем API-интерфейсы от Google, Microsoft и Openai. Компания проверила свою модель OCR со сложными документами, которые включают математические выражения (форматирование латекса), расширенные макеты или таблицы. Он также должен лучше работать с неанглийскими документами.
Кредиты изображения:Мистраль
Учитывая, что Mistral OCR делает только одну вещь и одну вещь, компания считает, что это также быстрее, чем то, что там. Это не удивительно, если вы сравниваете его с мультимодальными LLM, такими как GPT-4O, который также обладает возможностями OCR (среди многих других функций).
Мистраль также использует Mistral OCR для своего собственного помощника искусственного интеллекта Le Cat. Когда пользователь загружает файл PDF, компания использует Ocral OCR в фоновом режиме, чтобы понять, что находится в документе перед обработкой текста.
Компании и разработчики, скорее всего, будут использовать систему Mistral OCR с системой тряпичной (известной как поисковой генерации, для использования мультимодальных документов в качестве входных данных в LLM. И есть много потенциальных вариантов использования. Например, мы могли бы представить себе, что юридические фирмы, использующие их, чтобы помочь им быстро проходить через огромные объемы документов.
RAG — это метод, который используется для извлечения данных и использования их в качестве контекста с генеративной моделью ИИ.