総合仕様書ポータル(目次・概要)
ユーザーの画面操作を視覚的・意味的に理解し、ローカル環境で直接実行可能なワークフローを自律生成するRPAシステムです。
本システムはデスクトップアプリケーション(現時点ではPython環境を想定)として実装・提供されます。
※本プロジェクトは学校の授業内における研究開発として進行しています。
各モジュールの関心事の分離(疎結合)を徹底するため、以下の5つの役割で開発を分担します。
| 役割 | 主な担当ファイル | 詳細タスクと責務 |
|---|---|---|
| 1. 全体設計・データモデル ・UI連携 |
models/data_types.pyui/viewmodels/ |
Pydanticを用いた共通データ構造定義、MainWindowとバックエンド処理を繋ぐViewModel層の実装、全体のコードレビューとアーキテクチャの治安維持。 |
| 2. 操作記録 (Recorder) | core/recorder/ |
pynput等を用いたOSレベルの操作フック、操作間隔・座標の取得と一時ログへの書き出し、記録中における操作前後のスクリーンショット取得。 |
| 3. AIエンジン連携 ・環境構築 (Engines) |
engines/yolo/engines/ocr/engines/manager.py |
AI APIサーバーの構築・保守と通信処理。UIスレッドをブロックしない非同期通信、タイムアウト・リトライ機構の実装、環境変数による実行環境切り替え、Image Diff検証モジュールの開発。 |
| 4. コンテキスト統合 ・マクロ生成 (Generator) |
core/generator/ |
生ログと画像を読み込み、Engines側のモジュールと連携。UIの相対座標計算や周辺テキストとの関連付け、workflow.json / integrated.json の出力と一時ディレクトリの自動破棄。 |
| 5. 実行・最速化 (Executor) | core/executor/ |
workflow.json を読み込み操作を再現。200ms間隔でのImage Diff検証による即時ポーリング(最速実行)の実装、異常時・タイムアウト発生時の適切なエラーハンドリング。 |
各トピックの詳細は以下のリンクからご確認ください。