One Team. Portfolio

description 概要

IMAGINEは、自動運転車内のエンタメにおける「未来の空白」を埋めるアプリです。車窓から注視した建物をAIが検出し、音声でツアーガイドとして情報を届けることを目的としています。
これまで衝突回避などの安全のために用いられてきた自動運転の画像認識技術を、乗員の移動体験向上のために活用します。

person

私

フロントエンド・バックエンド実装、Geminiのプロンプト設計、リレーサーバ実装を担当。

person

コータ様

アイデア出し、AAOS関係、初期のアプリデザイン、フロントエンド部分を担当。

smart_toy

Geminiと読み上げ機能を用いた解説システム

視線先の建物画像をGeminiに入力し、解説文と対象物の情報を取得する。
さらにTTSで読み上げることで、バスガイドのような体験を実現しました。

Familiar_Face_And_Zone

MediaPipeでの顔認識

車載器などのモバイル端末で、処理負荷を軽減するためにMediaPipeと接続方法にMethodChannelを使いました。
また、全ての顔が検出開始から2秒間静止している場合に検出するようにし、運転手がうとうとしているなどの場合に
誤動作しないようにしました。

Electric_Car

未来の車（AAOS)　にカメラが無い制約を、スマホ＋リレーサーバで解決

AAOSには原則カメラが無いため、スマホからGoogle Cloud Computing Engine上に構築したリレーサーバに接続してカメラ映像や切り替えコマンドを送信できるようにしました。

ハッカソンでチームメンバーが、自動運転の車には音楽を聴くしかエンターテイメントが無いと問題定義を話している様子を聞いて、
観光客の案内や、視覚障害者の補助として活用できると思ったから

「AAOSでカメラが認識しない課題」にぶつかった際は、USBカメラで接続できるようにするなど様々な方法を試しましたが、解決する事はできませんでした。
しかし、スマホをカメラにし、リレーサーバを経由してネットワークをつないで解決しました。

また、「生成時間が1分以上かかるレイテンシの課題」もありました。
この課題はハッカソンでは気づくことが出来なかったので、今後生成中の時間にキャラクターが関連しそうな話題を話してくれたり、Gemini TTSを用いた高度な生成ではなく、端末内の読み上げ機能を用いるなど改善していきたいです。

ハッカソンを通じて、制約のある環境でも別の手段を組み合わせて解決する力を身につけました。
特に、AAOSでカメラが利用できない問題に対して、スマホとリレーサーバを組み合わせることで代替手段を構築できたのは大きな学びでした。

また、生成AIのレイテンシが体験に与える影響を実感し、待ち時間をどのように体験として設計するかの重要性を学びました。