ARCH стремится сделать вычислительную работу с веб-архивами
Posted: Sat Jul 05, 2025 8:40 am
Машинное обучение имеет множество потенциальных приложений для работы с коллекциями GLAM (галереи, библиотеки, архивы, музеи), хотя не всегда ясно, как начать. В этой статье описываются некоторые возможные способы, с помощью которых инструменты машинного обучения с открытым исходным кодом из экосистемы Hugging Face могут быть использованы для изучения коллекций веб-архивов, доступных через ARCH (Archives Research Compute Hub) Интернет-архива . более доступной за счет оптимизации доступа к данным веб-архива, визуализации, анализа и обмена. Hugging Face сосредоточена на демократизации хорошего машинного обучения. Ключевым компонентом этого является не только предоставление моделей, но и проведение обширной работы вокруг этического использования машинного обучения.
Ниже я работаю с коллекцией Collaborative Art Archive (CARTA) , ориентированной База данных по азартным играм на веб-сайты художников. Этот пост сопровождается демонстрацией ARCH Image Dataset Explorer . Цель этого поста — показать, как использование определенного набора моделей машинного обучения с открытым исходным кодом может помочь вам исследовать большой набор данных с помощью поиска изображений, классификации изображений и обучения модели.
Позже в этом году Internet Archive и Hugging Face организуют практический хакатон, посвященный использованию инструментов машинного обучения с открытым исходным кодом в веб-архивах. Пожалуйста, дайте нам знать, если вы заинтересованы в участии, заполнив эту форму .
Ниже я работаю с коллекцией Collaborative Art Archive (CARTA) , ориентированной База данных по азартным играм на веб-сайты художников. Этот пост сопровождается демонстрацией ARCH Image Dataset Explorer . Цель этого поста — показать, как использование определенного набора моделей машинного обучения с открытым исходным кодом может помочь вам исследовать большой набор данных с помощью поиска изображений, классификации изображений и обучения модели.
Позже в этом году Internet Archive и Hugging Face организуют практический хакатон, посвященный использованию инструментов машинного обучения с открытым исходным кодом в веб-архивах. Пожалуйста, дайте нам знать, если вы заинтересованы в участии, заполнив эту форму .