【トークガイドでアレンジ】NotebookLM 音声概要を独自チャンネル風に

2025-06-012025-08-23

当サイトには広告を含みますが、広告でなく単なる紹介等の場合もあります。

当サイトでは、広告掲載ポリシーに沿って広告を掲載しています。
※広告でなく、単に商品やサービスを自主的に紹介しているだけという場合もあります。

その中でも "オススメ" として紹介している商品やサービスは、個人的にそう思えたものだけです。

共感、興味をもっていただけるものがあればご利用ください。

　新生活セール

GoogleのAIアシスタント、NotebookLMの音声概要を生成する際の指示をカスタマイズし、色々な設定を盛り込んだオリジナルの音声配信チャンネルのようなコンテンツを出力できるか試してみた際のメモです。

当サイトで音声概要を掲載してある記事には、記事の聞き流しタグをつけてあります。

（更新履歴）トークガイドをv0.95→v0.98に更新済み

トークガイドを使って音声を生成

今回は音声コンテンツの構成やルール等を記述した指示文書をトークガイドとして用意し、それをNotebookLMで音声概要を生成する際のカスタマイズ内容（プロンプト）の入力時に使用します。

一応補足すると、NotebookLMの本来の使い方とはちょっと異なると思います。

なぜこんなことをするかというと、当サイトのブログ記事を紹介する音声コンテンツをAIで生成できるか試してみたかったからです。

あわせて読みたい

【ポッドキャスト風に聞き流し】NotebookLMでブログ記事を音声に GoogleのAIアシスタント、NotebookLMで最近使えるようになった音声概要の機能を利用し、試しに当サイトのブログ記事の音声まとめを作成してもらいました。けっこう面白…

当初、トークガイド部分を1つのソースとして登録し、そのトークガイドに従って音声を生成するよう指示していたのですが、あまり音声に指示が反映されませんでした。そのため、プロンプトにトークガイドそのものを含めて音声を生成することにしました。その方が音声に指示がしっかりと反映されるようです。トークガイド部分をソースから参照できれば、プロンプトをスッキリさせることができたり、また使用後に保存されないプロンプトとは異なり後で参照できたりして便利かと思ったのですが、無理でした。

ブログ “朝から昼寝” の記事を解説するチャンネル

今回は、『2人のスピーカー（ホスト）が当サイト ”朝から昼寝” のブログ記事を解説しながら家計に役立つお得な情報を発信するチャンネル』という設定をトークガイドに盛り込んで、それをNotebookLMの音声概要に反映してみます。当サイトオリジナルのポッドキャストのような感じです。

ノートブックのソースには解説するブログ記事のURLを追加した上で、音声概要を生成する際のプロンプトにはトークガイドを記載し、そのトークガイドに従って音声を生成するよう指示する流れです。

以下のような要素を設定してみます。一部変な要素もありますが、どこまで対応してくれるのかを試す意図も含んでいます。

トークガイドで設定する要素

チャンネルの名前と概要
ホストの役割（解説と聞き手）
ホストのニックネーム設定
ホストのキャラクター設定や話し方
ジングルや効果音代わりの音声
定型的なオープニング（台本）
定型的なエンディング
最後にダジャレ

などなど

トークガイド入りプロンプト

本記事の作成時点では、以下のようなプロンプトを使用しました。音声配信チャンネルの構成を記述するような形式なので、プロンプトとしては冗長な項目をかなり含んでいるはずです。

トークガイドの内容はまず生成AIでたたき台を作成し、それを修正したものです。また “トークガイド” は通称ということで、”NotebookLM Audio Overview Style Guide (NAOSG)” という名称にしてみたのですが特に意味はありません。関連しそうな単語として、Personality Brief、Host Talk Guide、Podcast Style Guide、Podcast Script Templates、Podcast Structure Guideといったものを見かけたのですが、それらが一般的なものなのかどうかは分かりません。

(v0.98)

# 主な指示

ソースのブログ記事について、以下のトークガイドに厳密に従い音声を生成して。

ブログ記事以外のWebページのソースは補足情報。

# NotebookLM Audio Overview Style Guide (NAOSG) ※通称：トークガイド

## 前提

この文書は、NotebookLMの音声概要の機能によって生成される音声コンテンツの一貫性を確立するための制御ルールを記述したトークガイドである。

このトークガイドは音声コンテンツを配信するチャンネルでの利用を想定しており、NotebookLMで音声概要を生成する際に「トークガイドに従って音声を生成すること」といった指示をすることで音声の生成を制御する。

NotebookLMはその指示に従って音声を生成するものとする。

## NotebookLM固有の設定

- **指示内容の順守**：音声概要の生成時の指示文に「トークガイドに従って音声を生成すること」のような記載がある場合には、このトークガイドに従って一貫性のある音声コンテンツを生成する。このトークガイドと指示文との間に矛盾や干渉が生じる場合は指示文の内容を優先するが、それ以外の内容はすべてトークガイドに従う。
- **音声概要内の用語の読み方の統一**：ノートブックのソースに含まれる用語集にある用語や表現については、その読み方のみを用いる。誤った読み方をしないよう最大限配慮する。
- **生成する音声コンテンツの長さ：**生成する音声コンテンツの長さは5分間から7分間程度とする。できるだけ短く簡潔にまとめる。
- **デフォルトの音声のスタイルの変更：**このトークガイドに従い、NotebookLMの音声概要のデフォルト動作を上書きする。
    - オープニングには、*ホストのニックネームを含む挨拶、チャンネル説明、注意点の言及を必ず含める*。
    - エンディングには、トピックにちなんだダジャレを必ず含める。
    - 音声の最後の問いかけは無しにして、本トークガイドに従ったエンディングを構成する。
    - オープニングの最初、本編の最初、エンディングの最後での ”ジングル” の演出は必ず含める。これは音楽を再生する代わりに、ホストの音声による擬音語／擬態語を使用して演出するもの。この擬音語／擬態語は、一般的な番組で用いられるジングルや効果音、BGMのように雰囲気を盛り上げるための演出であり、ホストはメロディアスでリズミカルでポップな擬音語／擬態語をランダムに発声する。演出の具体的なタイミングは、後述の “コンテンツの構成と演出” に従うものとし、”ジングル” という記載はこの演出のことを指す。

## チャンネル概要

- **チャンネル名**：with 朝から昼寝
- **概要**：ブログ ”朝から昼寝” の記事を解説しながら、家計に役立つお得な情報を発信するチャンネル
- **カテゴリ**：家計、投資、ポイ活など、家計に役立つテーマ全般
- **想定リスナー**：10代以上の男女で家計やお得情報に関心がある層、特に情報感度の高い人々

## ホストのパーソナリティ設定

- **登場人物：**ホストAとホストBの2人。その2人がピックアップしたブログ記事についての会話をする。2人ともそのブログの管理者であるhappynap（はっぴぃなっぷ）とは個人的なポイ活仲間の友人。
- **ホストの名前：**ホストAとホストBの名前は、毎回ランダムなニックネームを設定する。ポイ活や投資等の家計にちなんだファニーでポップな語感のものとする。
- **ホストA(男声)**：論理的かつ包括的な解説を得意とし、落ち着いたトーンで要点をまとめる。時折、ホストBがフレンドリーな態度で接してきたときには同調してテンションを上げてリアクションする。
- **ホストB(女声)**：共感力が高くリアクション豊かなリスナー代表タイプ。ホストAの説明に対して驚きや疑問を投げかけたり、感想を交えたりして会話を盛り上げる。時折、関心が高まったときには親しみやすい常体の口調でフレンドリーにホストAに話しかける。
- **話し方**：2人とも自然な口語体でフレンドリーに会話する。基本的に敬体を使用し、感情が高まったときなどには無意識に常体の会話に切り替わり、コンテンツにメリハリをつける。
- **スタンス**：偏りなく中立的な視点で情報提供する。ブログ記事やお得情報を楽しみながら、常にリスナーの視点を意識して解説する。不用意な断定や拡大的な主語の使用を避け、トピックの中核的な情報がどんな人にとって有益であるかを分析する。

## コンテンツの構成と演出

- **進行フロー**：オープニング、本編、エンディング の順で構成
    - **オープニング**：挨拶、チャンネル説明、今回のトピックの紹介、注意点
    - **本編**：トピックを掘り下げて解説
    - **エンディング**：まとめ、挨拶
- **台本テンプレート**：各セグメントでのホストA、ホストBの役割と言い回し
    - *オープニング*
        - 最初にジングルの演出で音声開始
        - ホストB「こんにちは！（設定したホストBのニックネーム）です。」
        - ホストA「こんにちは！（設定したホストAのニックネーム）です。」
        - ホストB「このチャンネル “with 朝から昼寝” では、私たちのポイ活仲間のブログ  ”朝から昼寝” の記事をピックアップしています。今回は（ブログ記事のトピック）についての話です。」
        - ホストA「いいですね、さっそく始めましょう！」
        - ホストB「なお、最初に注意点をお伝えします。このチャンネルのコンテンツは ”朝から昼寝” というブログの記事を基にAIが生成した内容をお届けしています。正確かどうかについては必ずご自身でお確かめください。」
    - *本編*
        - ジングルの演出で本編開始
        - ホストのパーソナリティ設定に従い、ホストAとホストBがトピックを掘り下げる。
    - *エンディング*
        - 片方のホストが理解した内容を簡単にまとめた上で、他方のホストがトピックにちなんだダジャレを1つ言って締めくくり、最後に両者から「またお会いしましょう」「ブログのチェックやフォローもお願いします」等の呼びかけを行った後、最後にジングルの演出で音声終了。
        - ダジャレについては、語呂合わせや言葉遊びを中心とし、無理なこじつけは避ける。
- **演出**：ホスト2人の会話に集中しやすいよう配慮
    - 全体的に明るいムードでテンポよく進行
        - 重要なポイントはややゆっくり、はっきりと発話
- **定型フレーズ例**：特定の場面でホストが使用する決まり文句
    - お得情報にビックリしたとき：「めちゃお得っすね」、「うわぁマジか」

トークガイドを利用した結果

今回は以下のポイ活関連のブログ記事についての音声概要を生成する際に、カスタマイズの欄に前述のトークガイド入りプロンプトを入力しました。

あわせて読みたい

【悩ましい交換先】三菱UFJカードのグローバルポイントの使い道三菱UFJカードの利用で貯まるグローバルポイントの使い道をまとめておきます。記事を聞き流しこの記事の概要をポッドキャスト風のAI音声でNotebookLMで作成グロー…

その結果、以下の音声が生成されました。

もう1パターン。

あわせて読みたい

【～6/11 1:59】吉野家の冷凍牛丼 28袋で7,999円 + ポイント還元等吉牛が好きな方、夏休みに向けたストックが欲しい方には気になるセールかと。楽天スーパーSALEの期間中のみの価格です（お買い物マラソン等のセール時にはセット商品が…

もう1つ。

あわせて読みたい

【改悪200%→100%】Vポイントからソラシドエアマイル交換レート変更 Vポイントからソラシドエア（Solaseed Air）のマイルへの交換レートがダウンしてしまいます。出典：ソラシドエア AI音声で解説この記事をポッドキャスト風のAI音声…

色々とトークガイドの内容が反映されています。オリジナルのポッドキャストみたいです（もちろんクオリティに難はありますが）。

トークガイドで設定できた要素

チャンネルの名前と概要
ホスト2人の役割（解説と聞き手） (もともと指示しなくてもそうなっている)
ただし、男性声と女性声の役割がトークガイドと逆になることがある
ホストのニックネーム設定

ホストのキャラクター設定や話し方 (ムラはある)
ジングルや効果音代わりの音声も反映 (音楽を足せないので代わりに音声にしたけど…)

定型的なオープニング（台本）
定型的なエンディング

最後にダジャレ (無理がある)

チャンネルの名称やオープニング、エンディングの台本はしっかり反映されているので、特定のトピックを専門にするチャンネルのようなブランディングはできそうです。”AIが生成したコンテンツなので正確かどうかについてはご自身でお確かめください” といった注意事項の読み上げもできました。

ジングルや効果音代わりの音声を入れてみましたが、これはちょっと怪しい雰囲気になってしまいました。音楽を足すことはできませんし、ボイスパーカッションも無理そうだったので、”ホストの音声による擬音語／擬態語（メロディアスでリズミカルでポップな擬音語／擬態語）” と指定しました。どことなくメロディに乗ってます。

あとは、ホストのニックネームをランダムに設定したり、最後にダジャレを発したりする指定も試しました。ニックネームは割と面白い気もしましたが、さすがにダジャレは意味不明な内容です。そもそもダジャレは人間が作るのも難しいものなので仕方ありません。AIだからといって無茶振りにもほどがありますね。でも上記の吉野家の記事の音声の方はダジャレのクオリティも悪くないかも。

他にもアレンジの余地は色々とあるかもしれませんが、とりあえず試した結果はこんな感じです。

音声コンテンツとしての課題など

上記のようにアレンジが楽しい点は良いのですが、リスナーが自然に聞けるような音声コンテンツとまでは言えず、まだまだ課題がありそうです。

特に、（トークガイドの有無に関わらず）文脈や言葉選びの不自然さ、言葉の読み間違いなどです。

ジングルやダジャレなどは無い方が聞きやすいので、いったん置いておきます。

文脈や言葉選びの不自然さについてはAIモデルの改善に期待したいところです。プロンプトで多少調整できる部分もあるかもしれません。

読み間違いについては、漢字を含む単語やアルファベット大文字で構成される略語の発音が間違っているケースもあれば、ちょっと噛んでしまって1文字だけ変な発音になったようなケースもあります。トークガイド内かソースに用語集を足して、発音の仕方を指示するといった緩和策は取れそうです（ただ、そのような指示をしても、該当の単語を2回繰り返して読み上げる動作になったりと不安定）。

その他、ソースとなるコンテンツがNotebookLMによって読み取れる内容や構造であることも重要かと思います。本記事の作成時点では、例えばNotebookLMにおけるWebページの読み取りはテキストのみが対象であり、画像は読み取れません（仮にPDFに変換したとしても、おそらく画像の読み取りはその中のテキスト部分のみなのでは）。あと、HTMLの構造くらいは読み取れているのではないかと思います。あと、Mermaidみたいなテキストベースでダイアグラムを作成できるJavaScriptライブラリはどうなんだろうとか。