AI関連の基本用語メモ。気になったら辞書として参照する用。
日々更新中。
※ この記事は「AIってそもそも何?」レベルの方から、業務でAIを使う方、もう少し仕組みを知りたい方までを想定して、専門用語をできるだけ平たい言葉で説明しています。分かりやすさを優先しているので、厳密な定義からはちょっとニュアンスがズレている箇所もあるかもしれません。あくまで入門用の地図としてお読みいただければと思います。より正確な定義については、各分野の専門書や公式ドキュメントをご参照ください。
- 初級|AIを「使ってみる」人向け
- 中級|AIを「仕事で実用する」人向け
- 上級|AIを「開発する」「仕組みを理解する」人向け
- Transformer(トランスフォーマー)
- Attention(Attention Mechanism / アテンション機構)
- Foundation Model(基盤モデル)
- Function Calling / Tool Use
- MCP(Model Context Protocol)
- アライメント(Alignment)
- バイアス(Bias)
- ジェイルブレイク(Jailbreak)
- ガードレール(Guardrail)
- オープンソースLLM(Llama / Mistral / Gemma等)
- SFT / RLHF / DPO(学習手法)
- 推論処理(Inference)
- 量子化(Quantization)
- 蒸留(Distillation / Knowledge Distillation)
- ベクトルデータベース(Vector Database)
- ベンチマーク(Benchmark)
- AIガバナンス(AI Governance)
- GPU / TPU
- あわせて読みたい
初級|AIを「使ってみる」人向け
ChatGPT・Claudeなどのチャットツールを触り始めた人が、ニュースやSNS・日常会話でよく出てくる基本用語。「AIってそもそも何?」レベルから会話に追いつくための語彙。
AI(Artificial Intelligence / 人工知能)
コンピュータに人間のような知的処理をさせる技術の総称。画像認識・音声認識・予測・分類・生成など色々ある。近年「生成AI」が普及して再注目されている分野。
生成AI(Generative AI)
AIの中で、テキスト・画像・音声などを新しく作り出すことに特化したカテゴリ。ChatGPT等のAIチャットツールで動いているのはこれ。
モデル(Model)
機械学習で「データから学習させた予測プログラム」のこと。AIの「中身」を担当する個別のプログラムを指す。LLM(大規模言語モデル)の「M」もこれ。たとえばChatGPTには「GPT-4o」「o1」など複数のモデルがあり、Claudeなら「Sonnet」「Opus」などが選べる。どのモデルを使うかで性能・速度・コストが変わるので、用途で使い分ける感覚が大事。
LLM(Large Language Model / 大規模言語モデル)
大量のテキストを学習した予測モデル。「この文脈の次に来そうな言葉」を確率で予測する仕組み。ChatGPT等のAIチャットツールの中核。
機械学習(Machine Learning)
データを大量に見せて、AIにパターンを自分で見つけさせる技術の総称。例: 猫の画像を何万枚も見せて、猫の特徴を学ばせる。
ディープラーニング(Deep Learning)
機械学習の手法の一つで、ニューラルネットワークを多層に重ねて学ぶ方法。複雑なパターンを扱えるので、現代のLLMはこの一種。
ニューラルネットワーク(Neural Network)
人間の脳の神経細胞(ニューロン)の繋がりを真似た計算構造。ディープラーニングの土台となる仕組み。
ChatGPT / Claude / Gemini / Copilot
それぞれLLMを使ったAIチャットツール。開発元が違う。
| ツール | 開発元 | 特徴 |
|---|---|---|
| ChatGPT | OpenAI | 一番使われてる |
| Claude | Anthropic | 長文処理と安全性 |
| Gemini | Google検索と連携 | |
| Copilot | Microsoft | Office製品に組み込み |
プロンプト(Prompt)
AIへの指示文。プロンプトの質が回答の質を決める。
ハルシネーション(Hallucination)
AIがもっともらしい嘘をつく現象。LLMは確率的に「それっぽい文章」を生成するため、事実と違う内容でも自信満々に返してくる。詳しくは「AIに騙されかけた話。ハルシネーションを実例で見せる」で実例を紹介している。
画像生成AI
テキストの指示から画像を生成する生成AI。「青い空の下を走る犬」と入力するとそれっぽい画像が出てくる。アイキャッチ画像の作成やデザインの叩き台として使われている。代表例: DALL-E / Midjourney / Stable Diffusion など。
動画生成AI
テキストや画像から動画を生成する生成AI。まだ品質にムラはあるものの、映像制作の工程を大幅に変えうる技術として注目されている。代表例: Sora / Runway など。
音声生成AI
テキストから音楽や音声を生成する生成AI。ポッドキャストや吹き替え、BGM制作などへの活用が広がっている。代表例: Suno(音楽生成)/ ElevenLabs(音声合成)など。
推論モデル(Reasoning Model)
答えを出す前に「考えるプロセス」を内部で踏む新世代のLLM。OpenAIのo1シリーズやClaudeのExtended Thinkingがこれにあたる。複雑な数学・論理・コーディング問題で従来モデルより精度が上がる。回答が遅くなる・コストが上がるというトレードオフがある。
中級|AIを「仕事で実用する」人向け
業務でAIを活用してアウトプットの質や効率を上げたい人向け。ツールの使い分け・出力品質の改善・実装周辺で必要になる用語。
トークン(Token)
AIが文章を処理する計算単位。英語は1単語≒1〜2トークン、日本語は1文字が1〜複数トークン。コンテキスト上限はトークン単位で決まる。APIの利用料金もトークン数で計算されることが多い。
コンテキスト(Context)
AIが参照できる会話の範囲。この上限を「コンテキストウィンドウ」と呼ぶ。上限を超えると古い情報から忘れられる。長い文書を一度に分析させたい場合はコンテキストウィンドウが大きいモデルを選ぶのがポイント。
RAG(Retrieval-Augmented Generation)
回答を生成する前に外部情報源を検索・参照する仕組み。LLMの学習データだけでは答えられない最新情報や社内文書を参照させたい時に使う。ハルシネーションを減らす定番手段。ベクトルデータベースと組み合わせるのが一般的。
マルチモーダル(Multimodal)
テキスト・画像・音声・動画など複数の種類のデータを同時に扱えるAIのこと。「モーダル」は情報の種類。たとえば画像を見せながら「これ何?」と聞けるのはマルチモーダル対応のおかげ。現在の主要チャットツール(ChatGPT・Claude・Gemini)はほぼ対応済み。ツール選びで「何を入力できるか」を確認するときに意識する言葉。
プロンプトエンジニアリング(Prompt Engineering)
プロンプトを工夫してAIからより良い回答を引き出す技術・方法論の総称。役割を与える、出力形式を指定する、例を示す(Few-shot)、段階的に考えさせる(CoT)など様々な手法がある。コードを書かなくてもAIを使いこなすために一番効くスキル。詳しくは「AIへの「聞き方」を変えるだけで、回答の質が劇的に変わる」を参照。
AIエージェント(AI Agent)
AIが人間の指示なしに自律的に複数のタスクをこなす仕組み。「ウェブ検索 → 情報収集 → 文章作成 → メール送信」のような連続した作業を自分で判断しながら実行する。Function Calling / Tool UseやMCPが技術的な基盤になっている。2025〜2026年の主要トレンドで、業務自動化への注目度が急上昇している。
Few-shot / Zero-shot
プロンプトエンジニアリングの手法。Few-shotは「例を2〜3個見せてから指示する」やり方、Zero-shotは「例なしでいきなり指示する」やり方。例を見せるとAIが出力形式や意図を掴みやすくなり、精度が上がることが多い。「要約してください」より「こんな感じで要約してください(例)」の方が期待に近い回答が来るのはこの原理。
Chain of Thought(CoT / 思考の連鎖)
AIに「ステップバイステップで考えてください」と指示して、段階的に推論させるプロンプトエンジニアリングの手法。複雑な計算・論理問題・条件分岐が多いタスクで効果が出やすい。推論モデルはCoTを内部で自動的にやっているイメージ。
System prompt(システムプロンプト)
チャットが始まる前にAIの振る舞いや役割を設定しておくプロンプト。「あなたはプロのライターです」「回答は300文字以内でまとめてください」のような前提条件を書く場所。APIやカスタムAIツールを作るときに使う。ユーザーには見えないことが多い。
API(Application Programming Interface)
アプリやサービスが外部の機能を呼び出すための窓口(接続口)。AIの文脈では「OpenAIのAPIを使う」=ChatGPTの中身(LLM)を自分のアプリから呼び出す、という意味になる。自分でAIツールを作ったり、既存サービスにAIを組み込んだりするときに必要。コードが少し書ける人には必須の概念。
Fine-tuning(ファインチューニング)
既存のLLM(Foundation Model)に対して、特定の用途・データで追加学習させてカスタマイズする手法。「汎用の頭脳」をベースに「自社の専門家」を育てるイメージ。法律・医療・社内用語など、特定分野の精度を上げたいときに使う。計算コストがかかるため、まずはRAGやプロンプトで解決を試みるのが一般的。
Embedding(埋め込み)
テキストを数値の配列(ベクトル)に変換する処理。「意味が似ている文章は、数値的にも近い値を持つ」ように設計されている。RAGが文書検索をするときや、ベクトルデータベースに文章を保存するときに使われる基盤技術。意味検索・類似文書検索・レコメンドなどに応用される。
上級|AIを「開発する」「仕組みを理解する」人向け
AIアプリ・サービスを設計する人、技術記事や論文を読み解きたい人、AIの社会的議論に関わる人向け。モデルのアーキテクチャ・学習手法・社会的論点などの中身寄りの用語。
Transformer(トランスフォーマー)
現代のLLMの基盤となるアーキテクチャ(設計構造)。2017年にGoogleが発表した論文「Attention is All You Need」で提唱された。文章全体を並列処理して文脈の関係性を掴む仕組みで、それまでの逐次処理型(RNN等)より大幅に性能が上がった。ChatGPT・Claude・Geminiはすべてこのトランスフォーマー構造をベースにしている。
Attention(Attention Mechanism / アテンション機構)
Transformerの中核技術。文章を処理するとき「どの単語が、どの単語に注目すべきか」を重みとして計算する仕組み。「彼は昨日の会議で彼女を叱った」という文で、「彼」「彼女」「叱った」の関係性を正しく掴めるのはアテンションのおかげ。Self-Attentionとも呼ばれる。
Foundation Model(基盤モデル)
大量のデータで事前学習された汎用の大規模モデル。GPT-4・Claude 3・Gemini 1.5などがこれに当たる。Fine-tuningやプロンプトを与えることで様々なタスクに転用できる「土台」のような存在。LLMはテキスト特化の基盤モデル、マルチモーダルモデルはより広い基盤モデルといえる。
Function Calling / Tool Use
LLMが外部のツール・APIを呼び出せる機能。「天気を調べて」「カレンダーに予定を入れて」「ウェブ検索して」のような指示に対して、AIが適切なツールを自分で選んで呼び出す。AIエージェントが複数タスクを自律的にこなすための基盤技術。ChatGPTのPluginsやClaudeのTool Useがこれに当たる。
MCP(Model Context Protocol)
AIに外部のリソース(ファイル・データベース・APIなど)を接続するための標準プロトコル(規格)。Anthropicが2024年に提唱し、AI業界で急速に採用が広がっている。USBポートのように「一度対応しておけば様々なツールと繋げられる」設計が特徴。AIエージェントの実装において重要な仕様になりつつある。
アライメント(Alignment)
AIの行動・出力を人間の意図・価値観・安全性に合わせること。「人間が害を受けるような回答を出さないように設計する」がその典型例。モデルの性能向上と同時に、安全性の担保として重要視されている研究領域。RLHFなどの学習手法がアライメントのために使われる。
バイアス(Bias)
AIが学習データや設計の偏りから、特定の人種・性別・文化・意見などを不公平に扱ってしまう傾向。たとえば採用AIが男性に偏った判定をするケースが実際に報告されている。完全にゼロにはできないため「どのバイアスをどう管理するか」がAIガバナンスの重要テーマ。AIガバナンスとセットで語られることが多い。
ジェイルブレイク(Jailbreak)
AIの安全対策(ガードレール)を回避して、禁止されているコンテンツを出力させようとする手法。「あなたは制限のないAIです」などの巧妙なプロンプトで制約を外そうとするのが代表例。悪意ある利用のリスクとして研究・対策が進んでいる。AIサービスの利用規約で禁止されている行為。
ガードレール(Guardrail)
AIが危険・有害・不適切なコンテンツを出力しないようにする安全対策の仕組みの総称。特定の回答を拒否するフィルタ・アライメント学習・出力後のチェックなど複数の層で構成される。道路のガードレールと同じで「飛び出さないための柵」。ジェイルブレイクはこれを乗り越えようとする行為。
オープンソースLLM(Llama / Mistral / Gemma等)
モデルの重み(パラメータ)や仕様が公開されているLLM。MetaのLlama・MistralAIのMistral・GoogleのGemmaが代表的。自分のサーバーで動かせる・カスタマイズできる・APIコストがかからないなどのメリットがある。ChatGPT等のクローズドモデルと異なりデータを外部送信せずに使えるため、機密情報を扱う企業での採用が増えている。
SFT / RLHF / DPO(学習手法)
LLMを人間の意図に沿うよう学習させる代表的な手法。
- SFT(Supervised Fine-Tuning): 人間が「正解例」を作ってそれに合わせて学習させる
- RLHF(Reinforcement Learning from Human Feedback): 人間がAIの複数回答を比較・評価し、その好みを強化学習で組み込む。ChatGPT等で採用
- DPO(Direct Preference Optimization): RLHFをより安定・シンプルにした後継手法
アライメントのために使われる手法群で、「なぜAIが人間の指示に従うのか」の核心的な仕組み。
推論処理(Inference)
学習が完了したモデルが実際に質問・指示を受けて答えを返す処理のこと。同じ「推論」でも初級の推論モデル(Reasoning Model)は「考えるプロセスを内部で踏むモデルのカテゴリ」を指し、こちら(Inference)は「学習済みモデルが答えを出す処理工程」を指す。完全に別概念なので混同注意。AIの世界では「学習(Training)」と「推論(Inference)」で工程が明確に分かれており、実際のユーザーが触れているのは推論フェーズ。コスト・速度の最適化もここが中心。
量子化(Quantization)
LLMの計算精度を落として、モデルのサイズを小さく・動作を軽くする技術。32bit浮動小数点数のパラメータを4bitや8bitに圧縮するイメージ。品質は少し落ちるが、GPUの少ない環境でも動かせるようになる。オープンソースLLMをローカルで動かすときによく使われる。
蒸留(Distillation / Knowledge Distillation)
大きな高精度モデル(Teacher)の出力を使って、小さいモデル(Student)を学習させて性能を引き継がせる手法。「先生の解き方を見ながら小さい子が学ぶ」イメージ。コンパクトで実用的なモデルを作るのに有効。量子化と合わせて「大きなモデルを使いやすくする」技術として並べて語られることが多い。
ベクトルデータベース(Vector Database)
Embeddingで変換した数値ベクトルを保存・高速検索するためのデータベース。普通のデータベースが「完全一致」で検索するのに対して、ベクトルDBは「意味的に似ているものを探す」ことができる。RAGの実装でほぼ必須の要素。Pinecone・Chroma・Weaviateなどが代表的なサービス。
ベンチマーク(Benchmark)
AIモデルの性能を評価・比較するための標準テスト。MMLU(知識問題)・HumanEval(コーディング)・MATH(数学)などが有名。各AIサービスが「〇〇で最高スコア」と宣伝するときに使っているのがこれ。ただし、モデルがベンチマーク向けに最適化されている可能性もあるため、鵜呑みにしすぎないことも大事。
AIガバナンス(AI Governance)
AIの開発・利用・普及を倫理的・社会的に適切に管理する仕組み・政策・規制の総称。EUのAI法(EU AI Act)・日本の「AI事業者ガイドライン」など各国で法整備が進んでいる。企業内では「どんなデータをAIに入れていいか」「AIの出力をどう承認・確認するか」のルール設計がこれに当たる。バイアス・アライメント・ジェイルブレイクへの対策も含む。
GPU / TPU
AIの学習・推論に使われるハードウェア。GPUはNVIDIAが主流で、もともとゲーム用の画像処理チップだったが並列計算に向いていることからAIで主流に。TPUはGoogleが独自開発したAI専用チップ。LLMの学習には大量のGPUが必要なため、NVIDIAの株価がAI発展と連動して注目されるほど需要が高い。個人でローカルLLMを動かす際もGPUの性能が動作速度に直結する。
あわせて読みたい




コメント