GPU, Chip, Model, Compute: AI के Hype के पीछे वाले Hardware शब्द

आप किसी नए AI सिस्टम के बारे में लेख पढ़ रहे हैं, और तीन ही वाक्यों में लेखक ने chip, GPU, model और "compute" का ज़िक्र कर दिया है, मानो यह कोई चीज़ हो जिसे आप कप में उँडेल सकें। आप सिर हिलाते जाते हैं, पर दिमाग़ के किसी कोने में एक छोटी-सी आवाज़ पूछती है: रुकिए, इनमें से असली दिमाग़ कौन है, और कौन सिर्फ़ वह डिब्बा है जिसमें वह रहता है?

यह भ्रम बिल्कुल सामान्य है। ये शब्द साथ-साथ चलते हैं, तकनीकी लगते हैं, और बहुत-सी marketing सामग्री जानबूझकर इन्हें ढीले-ढाले तरीके से इस्तेमाल करती है। अच्छी ख़बर यह है कि एक बार आप hardware को software से अलग कर लें, तो पूरी शब्दावली अपनी जगह बैठ जाती है।

त्वरित उत्तर

एक chip(हार्डवेयर का छोटा टुकड़ा) है; एक GPU एक ख़ास तरह का chip है जो एक साथ कई छोटी गणनाएँ करने में माहिर है। Compute एक अनौपचारिक शब्द है जिसका मतलब है कच्ची processing शक्ति या संसाधन। एक model hardware है ही नहीं — यह वह प्रशिक्षित software सिस्टम है जो उन chips पर चलता है। Chips काम करते हैं; model वह चीज़ है जिसे चलाया जाता है।

मुख्य शब्द

Chip — hardware का एक छोटा टुकड़ा, जिसे integrated circuit भी कहते हैं, जिसमें इलेक्ट्रॉनिक components होते हैं। यह एक भौतिक वस्तु है। "Processor" और "chip" आपस में मिलते हैं, पर "processor" उस हिस्से पर ज़ोर देता है जो गणना करता है, जबकि "chip" सामान्य भौतिक इकाई है।
Processor — वह component जो निर्देशों को अंजाम देता है। एक CPU (central processing unit) ज़्यादातर उपकरणों में सर्व-उद्देश्यीय processor होता है। यह एक समय में एक जटिल काम क्रम से करने में अच्छा है।
GPU — Graphics processing unit। मूल रूप से स्क्रीन पर छवियाँ बनाने के लिए बना, पर GPU कई सरल गणनाएँ समानांतर में चलाने में बेहद अच्छा निकला, जो ठीक वही है जो AI सिस्टम को चाहिए। इसी वजह से GPU, AI hardware का सितारा बन गया।
Compute — यहाँ संज्ञा के रूप में इस्तेमाल, मतलब processing शक्ति या किसी काम को चलाने के लिए ज़रूरी संसाधन। "This needs a lot of compute" का मतलब है "इसे बहुत processing क्षमता चाहिए।" यह संक्षेप है, कोई सटीक तकनीकी इकाई नहीं।
Model — एक प्रशिक्षित software सिस्टम जो input लेता है और output देता है। यह software है। Model को data ने आकार दिया है; यह किसी ऐसे chip के रूप में मौजूद नहीं जिसे आप पकड़ सकें।
Training — model को बनाने की प्रक्रिया, जिसमें उसे data देकर उसकी आंतरिक सेटिंग्स समायोजित करवाई जाती हैं।
Inference — पहले से प्रशिक्षित model का उपयोग करके उत्तर निकालने की प्रक्रिया।
Accelerator — किसी ख़ास तरह के काम को तेज़ करने के लिए बने chip के लिए एक सामान्य शब्द। GPU एक तरह का accelerator है। आपको AI कामों के लिए ख़ास तौर पर बने दूसरे accelerator भी मिलेंगे। यह शब्द बताता है कि chip का एक केंद्रित काम है, यह नहीं कि वह रहस्यमय है।
Cluster — कई chips का समूह जो आपस में जुड़कर एक बड़े संसाधन की तरह काम करते हैं। जब लोग कहते हैं कि model को "on a cluster" प्रशिक्षित किया गया, तो मतलब है कि जुड़े हुए hardware का पूरा कमरा उस पर लगा, कोई एक chip नहीं।

आम जाल

सबसे बड़ा जाल है chip को "the AI" मान लेना। लोग कहते हैं "this chip is the AI" या "they built the AI into the chip." Chip hardware है। AI का व्यवहार model से आता है, जो उस hardware पर चलने वाला software है। Chip, AI को संभव बनाता है; यह ख़ुद AI नहीं है।

दूसरा जाल है GPU और chip को ऐसे गड्डमड्ड करना मानो वे अलग श्रेणियाँ हों। GPU एक chip है — एक विशेष chip। "should we use a chip or a GPU?" पूछना कुछ-कुछ ऐसा है जैसे "मैं वाहन लाऊँ या साइकिल?" साइकिल एक वाहन है। साफ़ सवाल है "CPU या GPU?"

तीसरा, "compute" को गिनी जाने वाली चीज़ मानना। आप देखेंगे "we need more compute." अनौपचारिक रूप में यह ठीक है, पर ध्यान दें कि यहाँ यह अगणनीय है। आप "three computes" नहीं कहेंगे। इसे "more processing power" की तरह समझें।

चौथा, training और inference को घालमेल करना। Training model बनाती है और यह महँगी व धीमी होती है। Inference तैयार model को चलाती है और तुलना में तेज़ होती है। जब कोई लेख कहे कि सिस्टम ने कुछ नया "learned" किया, वह training है। जब वह आपका सवाल जवाब देता है, वह inference है। इन दोनों को आपस में बदलकर इस्तेमाल करने से आपका वर्णन धुँधला हो जाता है।

पाँचवाँ, यह मान लेना कि तेज़ chip का मतलब अपने आप ज़्यादा होशियार model। बेहतर hardware model को तेज़ चलने देता है या बड़े model के अस्तित्व को संभव बनाता है, पर chip model को समझदार नहीं बनाता। बुद्धिमत्ता जैसा व्यवहार इस बात से आता है कि model को कैसे प्रशिक्षित किया गया, न कि clock speed से।

छठा जाल है "a model" को "an app" के साथ गड्डमड्ड करना। जिस app को आप छूते हैं वह दोस्ताना आवरण है; model नीचे गुनगुनाता इंजन है, जो अक्सर दूर के उन chips पर चलता है जिन्हें आप कभी नहीं देखते। जब कोई सुर्ख़ी कहे कि किसी कंपनी ने "released a new model," तो वह उसी इंजन की बात कर रही है, भले ही आपकी स्क्रीन पर कोई नया app न आया हो। इंजन और dashboard को मन में अलग रखने से ख़बर समझना आसान हो जाता है।

सातवाँ जाल जिसका नाम लेना ज़रूरी है, वह अनौपचारिक वाक्यांश "runs on the cloud" है। इसका मतलब यह नहीं कि काम हवा में तैरता है; मतलब है कि यह किसी data center में किसी और के chips पर होता है, फिर नतीजा आपको वापस भेजा जाता है। "The cloud" बस किसी और का hardware है, जिस तक नेटवर्क से पहुँचा जाता है। model "lives in the cloud" कहने का असल मतलब है कि वह कहीं और के chips पर रहता है।

स्वाभाविक vs बेढंगे उदाहरण

बेढंगा: Their new chip can write essays and answer questions.

स्वाभाविक: Their new model can write essays and answer questions; it runs on their latest chips.

बेढंगा: We should switch from a chip to a GPU for this.

स्वाभाविक: We should switch from a CPU to a GPU for this, since the task runs in parallel.

कम स्वाभाविक: The AI is trained every time you ask it something.

बेहतर: The model was trained once; each question you ask is just inference.

कम स्वाभाविक: This will require many computes.

बेहतर: This will require a lot of compute.

कम स्वाभाविक: The cloud thinks about your question and replies.

बेहतर: The model runs on chips in a data center and sends the reply back.

ध्यान दें कि स्वाभाविक संस्करण hardware (chip, GPU) को software (model) से अलग रखते हैं, और "compute" को अगणनीय संसाधन की तरह बरतते हैं। यही अनुशासन "the cloud" पर भी लागू होता है: काम करने वाले hardware का नाम लें, बजाय इसके कि कोई धुँधला शब्द उसकी जगह खड़ा रहे।

संक्षिप्त तालिका

Word	Often confused with	What it actually is
Chip	ख़ुद AI	hardware का भौतिक टुकड़ा जिसमें circuits होते हैं
GPU	chip से अलग चीज़	समानांतर गणनाओं में माहिर विशेष chip
Compute	गिनी जाने वाली वस्तु	अगणनीय processing शक्ति या संसाधन
Model	chip या उपकरण	hardware पर चलने वाला प्रशिक्षित software

त्वरित अभ्यास

हर प्रश्न को दोबारा लिखने या जवाब देने की कोशिश करें। सुझाए गए उत्तर नीचे हैं।

ख़ाली जगह भरें: "The ______ runs on thousands of GPUs." (hardware या software शब्द?)
सही या ग़लत: GPU और chip दो पूरी तरह अलग श्रेणियाँ हैं।
स्वाभाविक लगने के लिए दोबारा लिखें: "We bought more computes for the project."
कौन-सा शब्द फिट है: "Answering your question is an example of ______ (training / inference)."
ग़लती पहचानें: "Their faster chip made the AI much smarter."

उत्तर: (1) model — यह hardware पर चलने वाला software है। (2) ग़लत — GPU एक तरह का chip है। (3) "We bought more compute for the project." (4) inference. (5) तेज़ chip किसी model को तेज़ चला सकता है या बड़े model की गुंजाइश दे सकता है, पर वह सीधे model को होशियार नहीं बनाता; वाक्य chip की भूमिका को बढ़ा-चढ़ाकर बताता है।

निचोड़

AI hardware के बारे में साफ़ लगने का सबसे तेज़ तरीका है एक पंक्ति को मज़बूती से याद रखना: chips और GPU भौतिक चीज़ें हैं, और model वह प्रशिक्षित software है जो उन पर चलता है, जबकि "compute" बस processing शक्ति का संक्षेप है। एक बार आप यह पंक्ति थाम लें, तो marketing सामग्री धुँध नहीं रह जाती। आप उस पल को पकड़ लेंगे जब कोई chip को "the AI" कहता है, और आप जान लेंगे कि मन में सही शब्द रख देना है। इसके लिए किसी इंजीनियरिंग डिग्री की ज़रूरत नहीं — बस hardware और software को उनकी अपनी लेन में रखना है, और "compute" को एक संसाधन की तरह बरतना है, न कि किसी gadget की तरह।