{"id":9406,"date":"2024-10-11T17:26:44","date_gmt":"2024-10-11T17:26:44","guid":{"rendered":"https:\/\/www.webhi.com\/how-to\/?p=9406"},"modified":"2024-10-14T16:45:31","modified_gmt":"2024-10-14T16:45:31","slug":"tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp","status":"publish","type":"post","link":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/","title":{"rendered":"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"1200\" height=\"675\" src=\"https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr.jpg\" alt=\"Ex\u00e9cuter des LLM localement llama.cpp Llama 3 Windows MAC OS\" class=\"wp-image-9412\" srcset=\"https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr.jpg 1200w, https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr-300x169.jpg 300w, https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr-1024x576.jpg 1024w, https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr-768x432.jpg 768w, https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr-150x84.jpg 150w\" sizes=\"(max-width: 1200px) 100vw, 1200px\" \/><\/figure>\n\n\n\n<p>Avec l&#8217;essor des mod\u00e8les de langage de grande taille (LLMs) en open-source, la capacit\u00e9 \u00e0 les ex\u00e9cuter efficacement sur des appareils locaux devient une v\u00e9ritable r\u00e9volution. Ce guide explore l&#8217;utilisation de&nbsp;<strong>llama.cpp<\/strong>, une biblioth\u00e8que open-source en C++ qui permet d&#8217;ex\u00e9cuter des LLMs comme&nbsp;<strong>Llama 3<\/strong>&nbsp;localement. Que vous soyez un d\u00e9veloppeur ou un passionn\u00e9 d&#8217;apprentissage automatique, ce tutoriel \u00e9tape par \u00e9tape vous aidera \u00e0 d\u00e9marrer avec llama.cpp, une biblioth\u00e8que facile \u00e0 installer qui optimise l&#8217;inf\u00e9rence LLM sur votre mat\u00e9riel, qu&#8217;il s&#8217;agisse d&#8217;un ordinateur de bureau ou d&#8217;une infrastructure bas\u00e9e sur le cloud.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"ce-quil-vous-faut-pour-commencer\"><strong>Ce qu&#8217;il vous faut pour commencer<\/strong><\/h2>\n\n\n\n<p>Avant de plonger dans les d\u00e9tails, il est important de v\u00e9rifier que votre mat\u00e9riel est pr\u00eat. Pour suivre ce guide, il est recommand\u00e9 d&#8217;avoir au moins 8 Go de VRAM. Cependant,&nbsp;<strong>llama.cpp<\/strong>&nbsp;offre une flexibilit\u00e9 avec des optimisations, notamment en ce qui concerne la quantification des mod\u00e8les, que nous aborderons plus tard.<\/p>\n\n\n\n<p>Ce tutoriel fonctionne avec des mod\u00e8les comme&nbsp;<strong>Llama-3\u20138B-Instruct<\/strong>, mais vous pouvez choisir d&#8217;autres mod\u00e8les disponibles sur Hugging Face.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"comprendre-llamacpp\"><strong>Comprendre llama.cpp<\/strong><\/h2>\n\n\n\n<p>Alors, qu&#8217;est-ce que&nbsp;<strong>llama.cpp<\/strong>&nbsp;? Il s&#8217;agit essentiellement d&#8217;une biblioth\u00e8que l\u00e9g\u00e8re en C++ con\u00e7ue pour simplifier le processus d&#8217;ex\u00e9cution des LLMs localement. Elle permet une inf\u00e9rence efficace sur diff\u00e9rents types de mat\u00e9riel, allant des ordinateurs de bureau de base aux serveurs cloud haute performance.<\/p>\n\n\n\n<p>Avec&nbsp;<strong>llama.cpp<\/strong>, vous b\u00e9n\u00e9ficierez de plusieurs fonctionnalit\u00e9s :<\/p>\n\n\n\n<ul>\n<li><strong>Performances de pointe :<\/strong>&nbsp;Il offre une inf\u00e9rence \u00e0 la pointe de la technologie pour les mod\u00e8les de grande taille.<\/li>\n\n\n\n<li><strong>Installation facile :<\/strong>&nbsp;L&#8217;installation de&nbsp;<strong>llama.cpp<\/strong>&nbsp;est simple et ne n\u00e9cessite aucune d\u00e9pendance externe.<\/li>\n\n\n\n<li><strong>Support de quantification :<\/strong>&nbsp;Il r\u00e9duit la taille des mod\u00e8les en les convertissant en une pr\u00e9cision plus faible, aidant \u00e0 ex\u00e9cuter les mod\u00e8les sur des appareils avec une m\u00e9moire limit\u00e9e.<\/li>\n\n\n\n<li><strong>Compatibilit\u00e9 multiplateforme :<\/strong>&nbsp;Il fonctionne sur MacOS, Windows et Linux, avec prise en charge de Docker et FreeBSD.<\/li>\n\n\n\n<li><strong>Utilisation efficace des ressources :<\/strong>&nbsp;<strong>llama.cpp<\/strong>&nbsp;tire pleinement parti des ressources CPU et GPU, rendant possible l&#8217;inf\u00e9rence hybride.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"les-d%C3%A9fis-que-vous-pourriez-rencontrer\"><strong>Les d\u00e9fis que vous pourriez rencontrer<\/strong><\/h3>\n\n\n\n<p>Bien que&nbsp;<strong>llama.cpp<\/strong>&nbsp;soit un outil incroyable, il n\u2019est pas sans d\u00e9fis :<\/p>\n\n\n\n<ul>\n<li><strong>Documentation limit\u00e9e :<\/strong>&nbsp;\u00c9tant open-source, la documentation disponible peut parfois \u00eatre insuffisante. Cependant, la communaut\u00e9 active est une excellente ressource.<\/li>\n\n\n\n<li><strong>Expertise technique :<\/strong>&nbsp;Configurer et ex\u00e9cuter des mod\u00e8les, en particulier avec des configurations personnalis\u00e9es, peut \u00eatre un peu complexe, surtout pour les utilisateurs novices en C++ ou en infrastructure de machine learning.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"guide-dinstallation-%C3%A9tape-par-%C3%A9tape\"><strong>Guide d&#8217;installation \u00e9tape par \u00e9tape<\/strong><\/h2>\n\n\n\n<p>Voyons maintenant le processus d&#8217;installation et de configuration pour que vous puissiez d\u00e9marrer avec&nbsp;<strong>llama.cpp<\/strong>&nbsp;et le mod\u00e8le&nbsp;<strong>Llama 3<\/strong>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"1-cloner-le-d%C3%A9p%C3%B4t\"><strong>1. Cloner le d\u00e9p\u00f4t<\/strong><\/h3>\n\n\n\n<p>Tout d&#8217;abord, vous devez t\u00e9l\u00e9charger le d\u00e9p\u00f4t&nbsp;<strong>llama.cpp<\/strong>&nbsp;depuis GitHub. Vous pouvez le faire avec les commandes suivantes :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ git clone https:\/\/github.com\/ggerganov\/llama.cpp\n$ cd llama.cpp<\/code><\/pre>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"2-construire-llamacpp\"><strong>2. Construire llama.cpp<\/strong><\/h3>\n\n\n\n<p>Ensuite, vous devrez construire le projet. Le processus de compilation varie l\u00e9g\u00e8rement selon que vous utilisez MacOS ou Windows.<\/p>\n\n\n\n<p>Pour&nbsp;<strong>MacOS<\/strong>, avec le support Metal, ex\u00e9cutez :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ make llama-server<\/code><\/pre>\n\n\n\n<p>Ou utilisez CMake :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ cmake -B build\n$ cmake --build build --config Release<\/code><\/pre>\n\n\n\n<p>Pour&nbsp;<strong>Windows<\/strong>, avec le support CUDA, les commandes sont l\u00e9g\u00e8rement diff\u00e9rentes :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">C:\\Users\\Bob&gt; make llama-server LLAMA_CUDA=1<\/code><\/pre>\n\n\n\n<p>Ou avec CMake :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">C:\\Users\\Bob&gt; cmake -B build -DLLAMA_CUDA=ON\nC:\\Users\\Bob&gt; cmake --build build --config Release<\/code><\/pre>\n\n\n\n<p>Vous pouvez \u00e9galement <strong>t\u00e9l\u00e9charger <\/strong>une version pr\u00e9compil\u00e9e sur la page officielle des releases :<\/p>\n\n\n\n<p><a href=\"https:\/\/github.com\/ggerganov\/llama.cpp\/releases\" target=\"_blank\" rel=\"noreferrer noopener\"><em>Page des Releases de LLAMA CPP<\/em><\/a><\/p>\n\n\n\n<p>Une fois termin\u00e9, vous \u00eates pr\u00eat \u00e0 commencer \u00e0 utiliser le mod\u00e8le.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"t%C3%A9l%C3%A9charger-et-pr%C3%A9parer-le-mod%C3%A8le\"><strong>T\u00e9l\u00e9charger et pr\u00e9parer le mod\u00e8le<\/strong><\/h2>\n\n\n\n<p>Dans cet exemple, nous allons utiliser le mod\u00e8le&nbsp;<strong>Meta-Llama-3\u20138B-Instruct<\/strong>, bien que vous puissiez l&#8217;adapter \u00e0 tout autre mod\u00e8le de votre choix.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"1-installer-le-cli-hugging-face\"><strong>1. Installer le CLI Hugging Face<\/strong><\/h3>\n\n\n\n<p>Pour commencer, installez l&#8217;interface de ligne de commande Hugging Face :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ pip install -U \"huggingface_hub[cli]\"<\/code><\/pre>\n\n\n\n<p>Cr\u00e9ez un compte sur Hugging Face si vous n&#8217;en avez pas d\u00e9j\u00e0 un, et g\u00e9n\u00e9rez votre jeton d&#8217;acc\u00e8s \u00e0 partir de la page des param\u00e8tres. Vous en aurez besoin pour acc\u00e9der aux mod\u00e8les.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"2-se-connecter-%C3%A0-hugging-face\"><strong>2. Se connecter \u00e0 Hugging Face<\/strong><\/h3>\n\n\n\n<p>Connectez-vous avec vos identifiants Hugging Face :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ huggingface-cli login<\/code><\/pre>\n\n\n\n<p>Une fois connect\u00e9, acceptez les conditions du mod\u00e8le&nbsp;<strong>Llama-3\u20138B-Instruct<\/strong>&nbsp;et attendez l&#8217;approbation d&#8217;acc\u00e8s.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"3-t%C3%A9l%C3%A9charger-le-mod%C3%A8le\"><strong>3. T\u00e9l\u00e9charger le mod\u00e8le<\/strong><\/h3>\n\n\n\n<p>Vous avez deux options principales pour t\u00e9l\u00e9charger le mod\u00e8le :&nbsp;<strong>non quantifi\u00e9<\/strong>&nbsp;ou&nbsp;<strong>quantifi\u00e9 GGUF<\/strong>.<\/p>\n\n\n\n<ul>\n<li><strong>Option 1 : Mod\u00e8le non quantifi\u00e9<\/strong><\/li>\n<\/ul>\n\n\n\n<p>Pour t\u00e9l\u00e9charger le mod\u00e8le non quantifi\u00e9 :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ huggingface-cli download meta-llama\/Meta-Llama-3-8B-Instruct --exclude \"original\/*\"  --local-dir models\/Meta-Llama-3-8B-Instruct<\/code><\/pre>\n\n\n\n<p>Apr\u00e8s le t\u00e9l\u00e9chargement, vous devrez installer les d\u00e9pendances Python et convertir le mod\u00e8le au format GGUF :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ python -m pip install -r requirements.txt\n$ python convert-hf-to-gguf.py models\/Meta-Llama-3-8B-Instruct<\/code><\/pre>\n\n\n\n<ul>\n<li><strong>Option 2 : Mod\u00e8le quantifi\u00e9<\/strong><\/li>\n<\/ul>\n\n\n\n<p>Si vous avez des contraintes mat\u00e9rielles, vous pouvez t\u00e9l\u00e9charger une version quantifi\u00e9e directement :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ huggingface-cli download path_to_gguf_model --exclude \"original\/*\" --local-dir models\/Meta-Llama-3-8B-Instruct<\/code><\/pre>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"utiliser-la-quantification-pour-optimiser-le-mat%C3%A9riel\"><strong>Utiliser la quantification pour optimiser le mat\u00e9riel<\/strong><\/h2>\n\n\n\n<p>La quantification vous permet d&#8217;ex\u00e9cuter des mod\u00e8les sur des appareils avec moins de m\u00e9moire, comme des syst\u00e8mes avec moins de 16 Go de VRAM. En r\u00e9duisant la pr\u00e9cision des poids des mod\u00e8les de 16 bits \u00e0 4 bits, vous \u00e9conomisez beaucoup de m\u00e9moire sans sacrifier trop de performances.<\/p>\n\n\n\n<p>Pour quantifier le mod\u00e8le :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ .\/llama-quantize .\/models\/Meta-Llama-3-8B-Instruct\/ggml-model-f16.gguf .\/models\/Meta-Llama-3-8B-Instruct\/ggml-model-Q4_K_M.gguf Q4_K_M<\/code><\/pre>\n\n\n\n<p>Cela produira un mod\u00e8le quantifi\u00e9 pr\u00eat pour l&#8217;inf\u00e9rence locale.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"ex%C3%A9cuter-le-serveur-llama\"><strong>Ex\u00e9cuter le serveur llama<\/strong><\/h2>\n\n\n\n<p>Une fois votre mod\u00e8le configur\u00e9, vous pouvez lancer le&nbsp;<strong>llama-server<\/strong>&nbsp;pour g\u00e9rer les requ\u00eates HTTP, vous permettant d&#8217;interagir avec le mod\u00e8le \u00e0 l&#8217;aide d&#8217;API standard.<\/p>\n\n\n\n<p>Pour MacOS :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">$ .\/llama-server -m models\/Meta-Llama-3-8B-Instruct\/ggml-model-Q4_K_M.gguf -c 2048<\/code><\/pre>\n\n\n\n<p>Sous Windows, utilisez :<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"bash\" class=\"language-bash\">C:\\Users\\Bob&gt; llama-server.exe -m models\\\\Meta-Llama-3-8B-Instruct\\\\ggml-model-Q4_K_M.gguf -c 2048<\/code><\/pre>\n\n\n\n<p>Vous pouvez maintenant commencer \u00e0 envoyer des requ\u00eates \u00e0&nbsp;<code>http:\/\/localhost:8080<\/code>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"cr%C3%A9er-un-chatbot-en-python\"><strong>Cr\u00e9er un chatbot en Python<\/strong><\/h2>\n\n\n\n<p>Vous pouvez \u00e9galement cr\u00e9er un chatbot Python simple pour interagir avec votre mod\u00e8le. Voici un script de base pour envoyer des requ\u00eates au serveur&nbsp;<strong>llama<\/strong>&nbsp;:<\/p>\n\n\n\n<pre class=\"wp-block-code\"><code lang=\"python\" class=\"language-python\">import requests\nimport json\n\ndef get_response(server_url, messages, temperature=0.7, max_tokens=4096, stream=True):\n    data = {\n        \"messages\": messages,\n        \"temperature\": temperature,\n        \"max_tokens\": max_tokens,\n        \"stream\": stream,\n    }\n    response = requests.post(f\"{server_url}\/v1\/chat\/completions\", json=data)\n    return response.json()\n\ndef chatbot(server_url):\n    messages = [{\"role\": \"system\", \"content\": \"You are a helpful assistant.\"}]\n    while True:\n        user_input = input(\"You: \")\n        if user_input.lower() == \"exit\":\n            break\n        messages.append({\"role\": \"user\", \"content\": user_input})\n        print(\"Assistant: \", get_response(server_url, messages))\n\nif __name__ == \"__main__\":\n    chatbot(\"http:\/\/localhost:8080\")<\/code><\/pre>\n\n\n\n<p>Ce script simple cr\u00e9e un chatbot qui communique avec le serveur&nbsp;<strong>llama<\/strong>&nbsp;pour g\u00e9n\u00e9rer des r\u00e9ponses.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"conclusion\"><strong>Conclusion :<\/strong><\/h2>\n\n\n\n<p>L&#8217;utilisation de&nbsp;<strong>llama.cpp<\/strong>&nbsp;pour ex\u00e9cuter des mod\u00e8les de langage de grande taille comme&nbsp;<strong>Llama 3<\/strong>&nbsp;localement peut \u00eatre une solution puissante et efficace, en particulier lorsque des performances d&#8217;inf\u00e9rence \u00e9lev\u00e9es sont requises. Malgr\u00e9 sa complexit\u00e9,&nbsp;<strong>llama.cpp<\/strong>&nbsp;offre une flexibilit\u00e9 avec une prise en charge multiplateforme, la quantification et l&#8217;acc\u00e9l\u00e9ration mat\u00e9rielle. Bien que cela puisse repr\u00e9senter un d\u00e9fi pour les d\u00e9butants, sa communaut\u00e9 croissante et ses fonctionnalit\u00e9s \u00e9tendues en font un choix de premier plan pour les d\u00e9veloppeurs et les chercheurs.<\/p>\n\n\n\n<p>Pour ceux qui sont pr\u00eats \u00e0 s&#8217;investir,&nbsp;<strong>llama.cpp<\/strong>&nbsp;offre d&#8217;innombrables possibilit\u00e9s pour l&#8217;inf\u00e9rence de LLMs localement ou dans le cloud.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Avec l&#8217;essor des mod\u00e8les de langage de grande taille (LLMs) en open-source, la capacit\u00e9 \u00e0 les ex\u00e9cuter efficacement sur des appareils locaux devient une v\u00e9ritable r\u00e9volution. Ce guide explore l&#8217;utilisation de&nbsp;llama.cpp, une biblioth\u00e8que open-source en C++ qui permet d&#8217;ex\u00e9cuter des LLMs comme&nbsp;Llama 3&nbsp;localement. Que vous soyez un d\u00e9veloppeur ou un passionn\u00e9 d&#8217;apprentissage automatique, ce tutoriel ..<\/p>\n<div class=\"clear-fix\"><\/div>\n<p><a href=\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\" title=\"read more...\">Read more<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[45,285],"tags":[],"yoast_head":"\n<title>Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp - WebHi Tutorials &amp; Documentations<\/title>\n<meta name=\"description\" content=\"Ex\u00e9cuter des LLMs comme Llama 3 localement avec llama.cpp, offrant une inf\u00e9rence efficace sur appareil pour des performances optimales et une configuration minimale.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\" \/>\n<meta property=\"og:locale\" content=\"en_US\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp - WebHi Tutorials &amp; Documentations\" \/>\n<meta property=\"og:description\" content=\"Ex\u00e9cuter des LLMs comme Llama 3 localement avec llama.cpp, offrant une inf\u00e9rence efficace sur appareil pour des performances optimales et une configuration minimale.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\" \/>\n<meta property=\"og:site_name\" content=\"WebHi Tutorials &amp; Documentations\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/webhi.technology\" \/>\n<meta property=\"article:published_time\" content=\"2024-10-11T17:26:44+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2024-10-14T16:45:31+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr.jpg\" \/>\n<meta name=\"author\" content=\"webhi\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@WebHiTechnology\" \/>\n<meta name=\"twitter:site\" content=\"@WebHiTechnology\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"webhi\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"7 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"TechArticle\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\"},\"author\":{\"name\":\"webhi\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/#\/schema\/person\/b31e76e2311cdc0bb90f5e2733059a54\"},\"headline\":\"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp\",\"datePublished\":\"2024-10-11T17:26:44+00:00\",\"dateModified\":\"2024-10-14T16:45:31+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\"},\"wordCount\":1124,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/#organization\"},\"articleSection\":[\"Administration syst\u00e8me Windows\",\"Intelligence Artificielle\"],\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\",\"url\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\",\"name\":\"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp - WebHi Tutorials &amp; Documentations\",\"isPartOf\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/#website\"},\"datePublished\":\"2024-10-11T17:26:44+00:00\",\"dateModified\":\"2024-10-14T16:45:31+00:00\",\"description\":\"Ex\u00e9cuter des LLMs comme Llama 3 localement avec llama.cpp, offrant une inf\u00e9rence efficace sur appareil pour des performances optimales et une configuration minimale.\",\"breadcrumb\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#breadcrumb\"},\"inLanguage\":\"en-US\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/www.webhi.com\/how-to\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/#website\",\"url\":\"https:\/\/www.webhi.com\/how-to\/\",\"name\":\"WebHi Tutorials &amp; Documentations\",\"description\":\"System administration and knowledge base\",\"publisher\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/www.webhi.com\/how-to\/?s={search_term_string}\"},\"query-input\":\"required name=search_term_string\"}],\"inLanguage\":\"en-US\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/#organization\",\"name\":\"WebHi Technology\",\"url\":\"https:\/\/www.webhi.com\/how-to\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/www.webhi.com\/how-to\/gilrogre\/2022\/07\/logo.png\",\"contentUrl\":\"https:\/\/www.webhi.com\/how-to\/gilrogre\/2022\/07\/logo.png\",\"width\":288,\"height\":95,\"caption\":\"WebHi Technology\"},\"image\":{\"@id\":\"https:\/\/www.webhi.com\/how-to\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/webhi.technology\",\"https:\/\/twitter.com\/WebHiTechnology\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/#\/schema\/person\/b31e76e2311cdc0bb90f5e2733059a54\",\"name\":\"webhi\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"en-US\",\"@id\":\"https:\/\/www.webhi.com\/how-to\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/www.webhi.com\/how-to\/ahuphiph\/litespeed\/avatar\/e20da107d0f4c765ead2eef88ad019d8.jpg?ver=1784239260\",\"contentUrl\":\"https:\/\/www.webhi.com\/how-to\/ahuphiph\/litespeed\/avatar\/e20da107d0f4c765ead2eef88ad019d8.jpg?ver=1784239260\",\"caption\":\"webhi\"},\"sameAs\":[\"https:\/\/www.webhi.com\/how-to\"],\"url\":\"https:\/\/www.webhi.com\/how-to\/author\/webhi\/\"}]}<\/script>\n","yoast_head_json":{"title":"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp - WebHi Tutorials &amp; Documentations","description":"Ex\u00e9cuter des LLMs comme Llama 3 localement avec llama.cpp, offrant une inf\u00e9rence efficace sur appareil pour des performances optimales et une configuration minimale.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/","og_locale":"en_US","og_type":"article","og_title":"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp - WebHi Tutorials &amp; Documentations","og_description":"Ex\u00e9cuter des LLMs comme Llama 3 localement avec llama.cpp, offrant une inf\u00e9rence efficace sur appareil pour des performances optimales et une configuration minimale.","og_url":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/","og_site_name":"WebHi Tutorials &amp; Documentations","article_publisher":"https:\/\/www.facebook.com\/webhi.technology","article_published_time":"2024-10-11T17:26:44+00:00","article_modified_time":"2024-10-14T16:45:31+00:00","og_image":[{"url":"https:\/\/www.webhi.com\/how-to\/gilrogre\/2024\/10\/llama_cpp_fr.jpg"}],"author":"webhi","twitter_card":"summary_large_image","twitter_creator":"@WebHiTechnology","twitter_site":"@WebHiTechnology","twitter_misc":{"Written by":"webhi","Est. reading time":"7 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"TechArticle","@id":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#article","isPartOf":{"@id":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/"},"author":{"name":"webhi","@id":"https:\/\/www.webhi.com\/how-to\/#\/schema\/person\/b31e76e2311cdc0bb90f5e2733059a54"},"headline":"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp","datePublished":"2024-10-11T17:26:44+00:00","dateModified":"2024-10-14T16:45:31+00:00","mainEntityOfPage":{"@id":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/"},"wordCount":1124,"commentCount":0,"publisher":{"@id":"https:\/\/www.webhi.com\/how-to\/#organization"},"articleSection":["Administration syst\u00e8me Windows","Intelligence Artificielle"],"inLanguage":"en-US","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/","url":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/","name":"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp - WebHi Tutorials &amp; Documentations","isPartOf":{"@id":"https:\/\/www.webhi.com\/how-to\/#website"},"datePublished":"2024-10-11T17:26:44+00:00","dateModified":"2024-10-14T16:45:31+00:00","description":"Ex\u00e9cuter des LLMs comme Llama 3 localement avec llama.cpp, offrant une inf\u00e9rence efficace sur appareil pour des performances optimales et une configuration minimale.","breadcrumb":{"@id":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#breadcrumb"},"inLanguage":"en-US","potentialAction":[{"@type":"ReadAction","target":["https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/www.webhi.com\/how-to\/fr\/tutoriel-simplifie-pour-executer-des-llms-llama-3-localement-avec-llama-cpp\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/www.webhi.com\/how-to\/"},{"@type":"ListItem","position":2,"name":"Tutoriel simplifi\u00e9 pour ex\u00e9cuter des LLMs (Llama 3) localement avec llama.cpp"}]},{"@type":"WebSite","@id":"https:\/\/www.webhi.com\/how-to\/#website","url":"https:\/\/www.webhi.com\/how-to\/","name":"WebHi Tutorials &amp; Documentations","description":"System administration and knowledge base","publisher":{"@id":"https:\/\/www.webhi.com\/how-to\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/www.webhi.com\/how-to\/?s={search_term_string}"},"query-input":"required name=search_term_string"}],"inLanguage":"en-US"},{"@type":"Organization","@id":"https:\/\/www.webhi.com\/how-to\/#organization","name":"WebHi Technology","url":"https:\/\/www.webhi.com\/how-to\/","logo":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/www.webhi.com\/how-to\/#\/schema\/logo\/image\/","url":"https:\/\/www.webhi.com\/how-to\/gilrogre\/2022\/07\/logo.png","contentUrl":"https:\/\/www.webhi.com\/how-to\/gilrogre\/2022\/07\/logo.png","width":288,"height":95,"caption":"WebHi Technology"},"image":{"@id":"https:\/\/www.webhi.com\/how-to\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/webhi.technology","https:\/\/twitter.com\/WebHiTechnology"]},{"@type":"Person","@id":"https:\/\/www.webhi.com\/how-to\/#\/schema\/person\/b31e76e2311cdc0bb90f5e2733059a54","name":"webhi","image":{"@type":"ImageObject","inLanguage":"en-US","@id":"https:\/\/www.webhi.com\/how-to\/#\/schema\/person\/image\/","url":"https:\/\/www.webhi.com\/how-to\/ahuphiph\/litespeed\/avatar\/e20da107d0f4c765ead2eef88ad019d8.jpg?ver=1784239260","contentUrl":"https:\/\/www.webhi.com\/how-to\/ahuphiph\/litespeed\/avatar\/e20da107d0f4c765ead2eef88ad019d8.jpg?ver=1784239260","caption":"webhi"},"sameAs":["https:\/\/www.webhi.com\/how-to"],"url":"https:\/\/www.webhi.com\/how-to\/author\/webhi\/"}]}},"_links":{"self":[{"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/posts\/9406"}],"collection":[{"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/comments?post=9406"}],"version-history":[{"count":6,"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/posts\/9406\/revisions"}],"predecessor-version":[{"id":9482,"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/posts\/9406\/revisions\/9482"}],"wp:attachment":[{"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/media?parent=9406"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/categories?post=9406"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.webhi.com\/how-to\/wp-json\/wp\/v2\/tags?post=9406"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}