校正のプロがChatGPT、Gemini、Claude 3の校正性能を比較検証した結果がスゴすぎた!

校正のプロがChatGPT、Gemini、Claude 3の校正性能を比較検証した結果がスゴすぎた! 校正

目次

生成AIと校正の相性って・・・

生成AIって文章作成や文章の添削・校正が得意とよく耳にしますよね。

それって本当なんでしょうか?

 

タクトシステムでも生成AIを業務に取り込むべく、日々研究を続けております。

われわれの部署は「制作本部」といって、基本的には紙媒体のDTP制作がメインのお仕事です。

その中で生成AIが使えそうな業務のひとつとして、校正・校閲があります

 

制作本部の中には校正・校閲を専門に作業する「校閲室」という部署があります。

日々、机に並べた原稿と校正紙とにらめっこをして、得意顔で赤字を入れている校正者が複数在籍しております。

「The・アナログ」を具現化したような部署です。

PCは1人1台はありますが・・・。

その「The・アナログ」の部署で、生成AIを業務に使えないか検証することになりました。

 

いろいろ試してみたものの、ズブの素人が頑張ってもなかなかうまくいかない・・・。

プロンプトの知識不足もあってか、校正結果が安定しないし、余計な箇所も直しちゃうところとか・・・間違えられない校正の業務との相性が悪いなぁ~という感想です。

生成AIの知識もまだまだ未熟なわれわれは、生成AIを使いこなすまでには時間がかかりそうです。

 

また、生成AIは種類も増えてきているので、どの生成AIが校正・校閲に向いているのか検証もおぼつかない。

やっぱりChatGPT?

日本語に強いというClaude?

Geminiもスゴいって聞くし・・・。

面白そうなの見つけた!

で、いろいろと情報を集めていると、X(旧Twitter)で面白そうなものを見つけました。

複数の生成AIを一度に使える画期的な機能「教えてAI」 byGMO(https://oshiete.ai/)の「教えてAI 一発検索」です!

※「教えてAI 一発検索」は2024年6月20日に「天秤AI byGMO」としてリニューアルしました。

(GMOインターネットグループ(株) プレスリリースより https://www.gmo.jp/news/article/9020/

このブログでは旧名称「教えてAI 一発検索」で表記しています。

 

「教えてAI」とは?

「教えてAI」は、GMOインターネットグループが運営する生成AIプロンプトポータルサイトです。このサイトでは、ChatGPTやGeminiなどの生成AIに利用者の意図通りの結果を出力させるためのプロンプトを提供しています。専門家が作成した高品質なプロンプトが多数掲載されており、ユーザーは無料でこれらを利用できます。

 

教えてAI

 

早速「新規登録」からアカウントを無料で作成しました。

 

「教えてAI 一発検索」を実際に開いてみるとこんな感じ。

なんと、最近話題のChatGPTの最新モデル「GPT-4o」や「Gemini 1.5 Flash」にも対応しています!

しかも今なら全部無料で使えるという、なんて素晴らしい機能!

 

教えてAI 一発検索

 

で、この画面!
なんかワクワクしてきました!

 

7種類の生成AIが使えるってマジですか!?

実際に「教えてAI 一発検索」で使用できる生成AIは全部で7種類!

  • ChatGPT-3.5 Turbo
  • ChatGPT-4o
  • Gemini 1.0 Pro
  • Gemini 1.5 Flash
  • Claude 3 Haiku
  • Claude 3 Sonnet
  • Claude 3 Opus

※2024年6月現在、Gemini 1.5 Proが追加され、なんと8種類に増えていました!

 

使ってみる前に、いったんそれぞれの特徴をザッと調べてみました。(ChatGPTが)

 

①ChatGPT

ChatGPTはOpenAIが開発した言語モデルで、その強力なテキスト生成能力は世界中で広く利用されています。無料版ではGPT-3.5を使用しており、質問応答やエッセイ執筆など多様なタスクに対応。GPT-4はさらに進化し、テキストだけでなくファイル読み取り、画像認識、音声認識など多彩な機能を備えています。

  • ChatGPT-3.5 Turbo

ChatGPT-3.5 Turboは、OpenAIが開発したGPT-3.5の改良版です。高速な応答と効率的な処理が特徴で、さまざまなタスクに対して堅実なパフォーマンスを発揮します。無料で利用できるため、幅広いユーザーが手軽に高性能なAIを活用できる点が魅力です。質問応答、文章生成、データ解析など、多様な用途に対応します。

  • ChatGPT-4o

GPT-4oは、GPT-4の改良版で、テキスト、音声、視覚の各機能が強化されています。高速化と精度向上が特徴で、一部の機能は無料で利用可能。API利用料も半額に変更され、コストパフォーマンスが高くなっています。

 

②Gemini

Googleが開発するAIモデルGeminiは、リアルタイム検索を通じて情報を引用できる点が特徴です。2024年2月には「Gemini 1.5 Pro」を発表し、最大100万トークン(編集部注:生成AIがテキストを処理する際の基本単位)に対応。GeminiはWebブラウザ版と開発環境版があり、多様なタスクに対応する万能型モデルです。

  • Gemini 1.0 Pro

多様なタスクを効率的に処理するモデルで、一般的なビジネスや個人のニーズに対応。高性能ながらも手軽に利用できます。

  • Gemini 1.5 Flash

軽量で高速なモデルとして設計され、テキスト、音声、画像などの異なる形式を組み合わせて処理できるマルチモーダル対応が可能です。特に大規模で高頻度のタスクに最適化されており、低いレイテンシー(編集部注:待ち時間のこと)で高い性能を発揮します。

 

③Claude 3

Anthropic社が開発するClaude 3は、2024年3月にリリースされ、最も性能が高いOpus、出力速度の速いHaiku、その中間のSonnetという3つのモデルが利用できます。特にトークン上限が非常に大きく、長文の認識や分析に強みを持っています。

  • Claude 3 Haiku

軽量で高速なモデル。短時間で多くの情報を処理でき、特に速さと軽快さを重視しています。

  • Claude 3 Sonnet

バランスの取れたモデルで、出力速度と精度の両方を兼ね備えています。無課金ユーザーも利用可能です。

  • Claude 3 Opus

最も知性が高いモデルで、自由形式の質問への回答精度が非常に高く、詳細な分析や複雑なタスクに最適です。

 

ザッとこんな感じ(とChatGPTが言ってきました・・・)。

 

生成AIって種類がいっぱいあって、選ぶのがむずかしいですよね。

でも「教えてAI 一発検索」なら一気に比較できるからありがたいです。

早速校正してみた!

早速やってみたい!

で、一気に比べられるのは6種類まで

7種類あるのに・・・って思っちゃうけどしょうがない。

それでも、それぞれでコピペして比較するより全然ラクだし、同時に見られるのがいいですよね。

回答のスピードも比較できるし。

 

実際に試してみたプロンプトは以下の通り。



以下の文章を校正し、間違いを修正してください。

また、修正した語句を教えてください。

 

タクトシステムが1000ページ規模のカタログ制作を高品質に仕上げることができるもう一つの理由は、DXおよびIT化による作業の効率かにあります。特に、「自動組版)は、この効率化を小腸する例と言えるでしょう。この自動組版は、テキストや画像などのコンテンツを事前に定られたフォーマットに沿って自動で配置し、組み立てることができるため、人的ミスを大幅に削減し、作業スピードを各段に向上させています.大ボリユームなカタログの組版作業は、その複雑さと細部への注意が求られるため、手作業では非常に時間がかかり、ミスが発生しやすくなります。しかし、タクトシステムではこれを自動化することで、大量のページでも迅速かつ正確に組版を行うことが可能になっていのです。これらの技術革新によって、タクトシステムは膨大な工数が必要な大規模カタログ制作を、高井品質で効率的に提供することができるのです。



 

どこが間違っているかわかりましたか?

10個の間違いを入れてみました。

 

ちなみに正しい文章はこちら。



タクトシステムが1000ページ規模のカタログ制作を高品質に仕上げることができるもう一つの理由は、DXおよびIT化による作業の効率にあります。特に、「自動組版は、この効率化を象徴する例と言えるでしょう。この自動組版は、テキストや画像などのコンテンツを事前に定められたフォーマットに沿って自動で配置し、組み立てることができるため、人的ミスを大幅に削減し、作業スピードを格段に向上させていますボリュームなカタログの組版作業は、その複雑さと細部への注意が求められるため、手作業では非常に時間がかかり、ミスが発生しやすくなります。しかし、タクトシステムではこれを自動化することで、大量のページでも迅速かつ正確に組版を行うことが可能になっているのです。これらの技術革新によって、タクトシステムは膨大な工数が必要な大規模カタログ制作を、高い品質で効率的に提供することができるのです。



 

このプロンプトを「教えてAI 一発検索」に投げてみました。

 

 

で、結果がこれです!

 

スピードは「Gemini 1.5 Flash」が一番早かったですね。

回答の文字数もそれぞれ全然違うんですね。

面白い!

 

では、実際の校正結果を見ていきましょう!

校正結果を見てみよう!

どの生成AIが校正・校閲に優れているのか、実際に結果を比較して見てみましょう。

「ChatGPT」「Gemini」「Claude 3」それぞれで比較していきます。

 

①ChatGPT校正結果

 

ChatGPT校正結果

 

「ChatGPT-3.5 Turbo」の結果は・・・

  • 修正後の文章:9/10 =90点

「定られた」は、「定められた」が正解。「定めた」も間違いじゃないんですが・・・。

  • 修正した語句:3/10 =30点

 校正結果は9個拾えているのに、表示は5個でそのうち正しくアウトプットされているのは3個のみでした。

 合計=120点

 

「ChatGPT-4o」の結果は・・・

  • 修正後の文章:10/10 =100点

さすが最新AI! 校正結果はパーフェクト!

  • 修正した語句:9/10 =90点

「。」だけアウトプットされていないので90点。でもすばらしい!

 合計=190点

 

②Gemini校正結果

 

Gemini校正結果

 

「Gemini 1.0 Pro」の結果は・・・

  • 修正後の文章:7/10 =70点

「小腸する」は「象徴する」が正解。しかも「向上する」って、意味変わっちゃってる・・・。

「高井品質」は「高い品質」にしてほしかった。

  • 修正した語句:2/10 =20点

校正結果は7個拾えているのに、なぜ4個しかアウトプットされない?

 合計=90点

 

「Gemini 1.5 Flash」の結果は・・・

  • 修正後の文章:7/10 =70点

こちらも「象徴する」を「促進する」に修正。同音異義語ってむずかしいのかな?

「高井品質」も同音異義語だし。

  • 修正した語句:3/10 =30点

アウトプットは6個で正解は半分。

 合計=100点

  • 説明:3/10

これだけ「説明」が付いてきました。プロンプトではお願いしていないアウトプットですね。

いいのか、悪いのか?

 

③Claude 3校正結果

 

Claude 3校正結果

 

「Claude 3 Haiku」の結果は・・・

  • 修正後の文章:5/10 =50点

これだけ 「効率か」を唯一拾えていない・・・。Claudeって日本語に強いんじゃなかったっけ?

  • 修正した語句:4/10 =40点

校正結果のわりにアウトプットは6個と多め。

 合計=90点

 

「Claude 3 Sonnet」の結果は・・・

  • 修正後の文章:7/10 =70点

これだけ「各段に」を「飛躍的に」に修正。「格段に」だったら「飛躍的に」でも意味は合っているような・・・。

  • 修正した語句:2/10=20点

「のです(2カ所)」って、1カ所じゃん!

 合計=90点

 

「Claude 3 Opus」の結果は・・・

  • 修正後の文章:9/10 =90点

Claudeの本領発揮!? Opusは優秀ですね。

  • 修正した語句:6/10=60点

こちらも結構優秀でした!

 合計=150点

 

④校正結果まとめ

 

校正結果まとめ

 

1位はさすがの「ChatGPT-4o」!

「Claude 3 Opus」「ChatGPT-3.5 Turbo」までが合格点!

「Gemini 1.5 Flash」「Claude 3 Sonnet」「Gemini 1.0 Pro」「Claude 3 Haiku」はまだまだといったところでしょうか。

 

今回やってみてわかったことは、だいたい間違えるところはどの生成AIも同じで、同音異義語は苦手だってこと。

「小腸する」っていう日本語はないから、前後の文脈でそれらしい「向上する」や「促進する」に修正されちゃった感じかな?

「高井品質」もやっぱり意味がわからないから、「高い品質」じゃなく「高品質」にしちゃうのかな?

 

あと、修正した語句のアウトプットも苦手でしたね。

(これはプロンプトでアウトプットの指示を明確にする必要がありそうですね。指示が雑すぎた?)

結果は「●●●」の一人勝ち! でも…

今回の結果は「ChatGPT-4o」の一人勝ちとなりました!

 

校正するなら「ChatGPT-4o」一択!って言い切りたいところですが・・・

これはあくまでひとつの検証結果でしかありません

何回かやると結果が異なるかもしれませんし、違う文章や違うプロンプトでやったら別の結果になるかもしれません。

でも、「教えてAI 一発検索」で6種類を一度に使って校正することで、ある程度の精度は担保できることもわかりました。

自分以外に6人の校正者が同時に校正をしてくれていると思えば心強いですよね!

いいとこどりすればいいんだし。

 

また、生成AIの進化は日進月歩です。

今日の結果と明日の結果も違ってくるし、1か月後には新たな生成AIが誕生しているかもしれません。

校正の精度も日々試していく必要がありますね。

近いうちに、100点満点の校正が可能になる生成AIが誕生する日がくるような気がして、校正者としては自分の将来が不安でしかたありません、ってマイナスな考えではなく、生成AIができることは生成AIに任せて、人間ができることに集中するって考えることにしています!

 

みなさんも、「教えてAI」 byGMO(https://oshiete.ai/)の「教えてAI 一発検索」をぜひ試してみてください!

 

無料でこれだけ使えるのは、控えめに言っても「神」です!

 

 

 

校正だけではなく、こんなに便利なものを使わないなんてもったいないですよ。

 

ということで、

われわれ「校閲室」の生成AI研究は

まだまだ続きます。