Claudeの新機能「Computer use」とは?
「Computer use」機能の概要
2024年10月、AnthropicはAIチャットサービス「Claude」の新機能「Computer use」をリリースしました。この機能は、ユーザーがテキストで指示を出すことにより、AIが自律的にパソコンを操作するというものです。現在はパブリックベータ版として提供されており、ユーザーからのフィードバックを受けながら改良が進められています。
「Computer use」機能では、AIが操作する際に画面をスクリーンショットで取得し、視認した要素をもとにマウスカーソルやキーボードを操作することが可能です。この機能はRPA(Robotic Process Automation)に近いもので、特に日常的なオフィス作業の自動化に大いに役立ちます。ユーザーが特定のウェブフォームに情報を入力するように指示すると、AIが自動的にデータを収集し、入力を完了させることができるのです。
AIがコンピュータを操作する仕組み
「Computer use」機能は、仮想デスクトップ環境での操作を基盤としており、この環境がAIによる直接的なパソコン操作のリスクを軽減しています。Anthropicは、Dockerを利用して仮想環境を構築する方法を推奨しており、安全性を考慮した利用が可能です。
AIがどのようにコンピュータを操作するかというと、ユーザーからの指示を解析し、その内容に応じてスクリーンショットを用いた視覚情報の分析を行います。その結果に基づき、必要なマウスの移動やクリック、キーボードの入力操作をシミュレートして実行します。この一連のプロセスにより、人間が行うのと近い形でパソコンの操作を実現します。
「Computer use」が可能にすること
インターネット検索やセル入力などの自動化
Claudeの新機能「Computer use」は、日常的なインターネット検索やスプレッドシートでのセル入力作業を自動化することが可能です。例えば、ユーザーが特定の情報をウェブ上で検索し、その結果をスプレッドシートにまとめる必要がある場合、従来ならば手動で行っていたこうした作業をAIに任せることができます。この機能は、AIが画面をスクリーンショットで取得して必要な要素を判断し、マウスカーソルやキーボード入力を操作することにより実現されています。したがって、単純で反復的なタスクを大幅に効率化することで、ユーザーはより重要な業務に集中できるようになります。Anthropicの推奨により、この操作は安全性を考慮して仮想的デスクトップ環境で行うことが一般的です。
人間のような画面操作の実現
「Computer use」によって、AIはまるで人間が操作しているかのように、コンピュータの画面を動かすことができます。この技術は、AIがスクリーンショットを分析し、視覚的に要素を認識して適切なアクションを起こすという方法で実現されています。たとえば、AIがウェブページ内でリンクをクリックしたり、フォームに入力をしたりすることも可能です。これにより、複雑な画面操作をAIに任せることで、人間の手を必要とせずに様々なタスクを完遂することができます。しかしながら、より高度な画面操作、例えばドラッグやスクロールなどは、現在も課題が残っています。このため、仮想デスクトップ環境での操作が標準とされ、ユーザーはその中で新しい操作エクスペリエンスを体験できます。
Claude 3.5とその進化
「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」の特徴
Claude 3.5のリリースにおいて、注目すべきは「Claude 3.5 Sonnet」と「Claude 3.5 Haiku」の二つのバージョンです。「Claude 3.5 Sonnet」は高機能なAIソリューションとして、多様な業務に対応すべく設計されています。その料金体系は、2024年11月に更新されており、$1 MTok入力 / $5 MTok出力となっております。一方、「Claude 3.5 Haiku」はより軽量で、シンプルなタスクに向いており、料金は$0.25 / 100万トークン(入力)や$1.25 / 100万トークン(出力)です。この二つのバージョンは、それぞれの目的に合わせた効率的なAI利用をサポートしており、部分的な自動化から高度なデータ処理まで幅広く対応します。
生成AIとRPAツールとの違い
生成AIであるClaude 3.5と、従来のRPA(Robotic Process Automation)ツールとの大きな違いは、柔軟性と適応力にあります。RPAは特定のタスクを自動化するためにプログラミングされており、決められたルールに従って操作を行います。対してClaude 3.5は、ユーザーの曖昧な指示や多様な要求にも対応可能で、AIが自律的に判断を下します。これにより、より人間的で直感的な操作が可能になります。また、RPAがルールベースで運用される一方で、Claudeの「Computer use」機能は、動的に環境を認識し適応できるため、予期せぬ事態にも柔軟に対応します。この違いにより、生成AIはより広範な業務自動化への可能性を提供します。
「Computer use」の実用面と課題
利便性と効率化の恩恵
AI Claudeの新機能「Computer use」が提供する主な利便性は、作業の効率化です。この機能を活用することで、ユーザーは日常的なパソコン操作をAIに任せることができます。データの入力やウェブ検索といった単純作業は、自動化が可能となり、人間の手を借りずに完了できます。これにより、ユーザーがより価値の高い業務に集中できる環境が整います。また、作業時間が短縮されることで、業務全体の効率が向上し、生産性の飛躍的な向上が期待されます。
実験的導入の現状と将来の課題
「Computer use」は現在パブリックベータ版として提供されており、実験的な導入が進められています。仮想的なデスクトップ環境を介してAIが直接パソコンを操作するため、セキュリティには特に注意が払われています。このプロセスの中で、ユーザーはAnthropicが推奨するDockerを使用して環境を構築し、安全に「Computer use」を試用しています。しかしながら、課題も存在します。現時点では、AIが複雑なスクロールやドラッグ操作を実行するには限界があります。これらの制限を克服し、新機能をさらに実用的なものに進化させることが今後の課題となります。
実際に「Computer use」を使ってみた体験談
AI Claudeの新機能「Computer use」を実際に試してみる機会がありました。この機能は、Anthropicが2024年10月にリリースしたもので、ユーザーのテキスト指示に従ってAIが自律的にパソコンを操作するというものです。使用感としては、ドキュメントの自動入力やインターネットブラウジングなど、手間のかかる作業を効率よく行える点が印象的でした。
始めに、Anthropic APIを準備し、GitHubからデモ環境を取得して、Dockerを使用して仮想的デスクトップ環境を構築しました。この仮想環境は、物理的なPC操作の危険を回避する設計となっており、安全性の高いプラットフォームです。Webブラウザでアクセスすることで、非常に直感的な操作が可能でした。
具体的な使用例としては、「Ant Equipment Co.のベンダーリクエストフォームに記入してください」と指示すると、AIが自動で指定されたデータを取得し、必要な情報をフォームに入力します。この自動化されたプロセスのおかげで、手動で行うと時間がかかるタスクが飛躍的に簡素化されました。
もちろん、この機能にはまだ課題もあります。特に複雑な操作、たとえばスクロールやドラッグなどに関しては、現時点では不完全な部分が見受けられます。しかし、初期のベータ版でここまで機能が実装されているのは非常に期待が持てると言えるでしょう。将来的には、これらの課題が解決され、さらに多くの業務の自動化が可能になると期待されています。