カテゴリー「JDBC」の記事

MySQL:4.1日本語問題

MySQLは4.0から4.1のバージョンアップで日本語を含む文字コードの扱いが大きく変わっており,それが原因でデータベースで日本語テキストを読み書きするときに文字化けなどが発生するケースがあります。ここではその問題について,当方でわかっている範囲で簡単にまとめてみました。

この問題について,詳しくはMySQLユーザ会FAQページなどを参照してください。

MySQLの文字コード処理は何が変わったのか

MySQL4.1以前は,データベースに格納するテキストデータの文字コードを指定することはできましたが,MySQLがその指定に従って何らかの処理(文字コード変換など)をすることはなく,指定した文字コードは単なるラベルに過ぎなかったようです。
MySQL4.1以降では,指定した文字コードに基づいて次のような処理を行うようになりました。

データベースのスキーマ定義で指定された文字コードとクライアントツールで指定された文字コードが異なる場合,mysqldデーモンとクライアントとの間でデータ転送を行うときに,指定された文字コード間で文字コード変換を行います。
また,このときの文字コード変換は,一度Unicode(UCS-2)に変換してから目的の文字コードに再度変換するという手順になります。

それがどのような影響をもたらしているのか

1)日本語文字コードを指定して作成したデータベースのテキストフィールドに,コマンドラインツール「mysql」から文字コード指定なしでテキストデータを入力したとき,mysqlコマンドの文字コードのデフォルトが「latin1」なので,入力する日本語テキストに対して「latin1→日本語文字コード」の変換を行ってしまい,日本語テキストが壊れます。

2)mysqldデーモンで指定される文字コードのデフォルトが「latin1」なので,データベースを作成するときに文字コードを明示しないと,データベースやテキストフィールドの文字コードはlatin1となります。この状態でmysqlコマンドから日本語文字コードを指定してデータベースに日本語テキストを入力すると「日本語文字コード→latin1」の文字コード変換が起こりますが,latin1には日本語が含まれないため,日本語の文字がすべて「?」に置き換えられてデータベースに書き込まれます。

3)文字コード変換について,Unicodeと非Unicodeを変換する変換テーブルに標準がないため,文字コード変換を行うと一部の文字が意図せぬコードに変換されてしまう可能性があります。詳細はこちらとかこちらとかこちらを参照。なお,文字コード変換は一旦Unicode(UCS-2)に変換してから目的の文字コードに変換するため,非Unicodeから非Unicodeへの変換でもこの問題が発生します。

4)文字コードのデフォルトを変えずにデータベースをlatin1で作成しクライアントからlatin1で読み書きした場合,文字コードが同じなので文字コード変換は起こらずに日本語テキストをデータベースに保存・読み出しができます。ただし,コマンドラインツール「mysqldump」は文字コードのデフォルトが「UTF-8」のため,文字コードをデフォルトのままデータベースの内容をバックアップすると「latin1→UTF-8」の文字コード変換が起きてしまい,日本語テキストが壊れます。

5)JDBCアダプタを介してJavaアプリからデータベースを読み書きした場合,テキストデータはJavaのStringクラスで読み書きを行いますが,Stringクラスのテキストデータは内部でUCS-2で保持するので,データベースアクセスの際にテキストデータの文字コードとUCS-2との間でコード変換が発生するはずです。このときデータベースの文字コードがlatin1なら日本語テキストが壊れ,Unicode系でない場合はUnicodeと非Unicodeの不整合の問題が発生すると思われます。

どうすればいいのか

以下のような設定を行えば,問題は避けられるはずです。
1)MySQLのデータベースに設定する文字コード,及びMySQLに入出力するテキストデータの文字コードを1つに統一して,文字コード変換が起きないようにします。
2)JDBCアダプタからMySQLにアクセスする場合は,MySQLで使用するすべての文字コードにUnicode系を指定して,JavaのStringクラス(UCS-2)との間でUnicode系以外への文字コード変換が起きないようにします。

MySQLでデフォルトの文字コードを設定するには,設定ファイル「my.cnf」(Windowsの場合は「my.ini」)に文字コードの定義を追加します。
MySQLの設定ファイルについてはこちらを参照:[4.1][5.1]
ここで指定できる文字コードのリストはこちらを参照:[4.1][5.1]
Microsoftコードページ932「cp932」はMySQL4.1.12及び5.0.3以降で指定できます。

デフォルトの文字コードの変更については,ソースファイルのリコンパイルによる対応もありますが,mysqldumpについてはソースファイル上での指定にかかわらずUTF-8でリコンパイルされてしまうので,mysqldumpのデフォルト文字コードの変更についてはmy.cnfファイルで対応するしかありません。

my.cnfファイルの[mysqld]セクションで指定できるパラメータに「skip-character-set-client-handshake」があります。このパラメータはクライアントの文字コード設定をサーバの設定で上書きして文字コード変換を行わないようにするようです。この指定はMySQL4.1.15及びMySQL5.0.13以降で使えます。
また,文字コードに「binary」を指定してもMySQL4.1以前同様文字コード変換を行わなくなるようです。但し,データベースやテキストフィールドでbinary型を指定した場合は,テキストの検索や文字列長を指定して行う処理などで不都合が生じるようです。そのため,binaryの指定はクライアントツールに限ったほうがよいようです。

文字コードにUTF-8を指定したmy.cnfファイルの設定例:

[client]
default-character-set = utf8

[mysqld]
default-character-set = utf8
skip-character-set-client-handshake

[mysqldump]
default-character-set = utf8

[mysql]
default-character-set = utf8

注意:my.cnfファイルの設定を更新したら,MySQLを再起動する必要があります。

JDBCアダプタ(MySQL Connector/J)からMySQLにアクセスする場合は,JDBCアダプタがデータベースのクライアントとして動作するときの文字コードを指定しておきます。JDBCアダプタ文字コードはJDBC URLで指定します。
文字コードにUTF-8を指定する場合の設定例(文字コード以外の指定は省いています):
jdbc:mysql://ホスト名/データベース名?useUnicode=true&characterEncoding=UTF8
JDBC URLでのUTF-8設定について,詳細はこちらこちらを参照。

■関連情報
Microsoftコードページ932(Wikipedia
MySQLユーザ会/FAQページ

■関連書籍をAmazonで検索:[MySQL][JDBC]
MySQL徹底入門 第3版 ~5.5新機能対応~ (kindle版)

にほんブログ村 IT技術ブログへ にほんブログ村 IT技術ブログ プログラム・プログラマへ にほんブログ村 IT技術ブログ ネットワーク・SEへ 人気ブログランキングへ ←この記事が役に立ったという方はクリックお願いします。
ioPLAZA【アイ・オー・データ直販サイト】

| | トラックバック (0)

WebObjects:MySQLのためのEOModelの設定

WebObjectsの運用環境で稼動するWebアプリケーションからデータベースにアクセスするためには,データベースの情報を定義するEOModelファイルが必要です。このEOModelファイルはEnterprise Objects Framework(EOF)からJDBCアダプタを介してデータベースにアクセスするためのもので,データベースへのアクセスに必要なJDBCの定義を設定しておく必要があります。
当方では,データベースはもっぱらMySQLを使っていますが,その場合にEOModelファイルに設定しているJDBCの定義をサンプルとして以下に公開します。
MySQLのバージョンは5.0.xで,JDBCアダプタはMySQL Connector/J 5.0.xを使用しています。JDBCアダプタは,Mac OS Xの環境では「/Library/Java/Extensions/」にインストールしています。(参考

JDBC Connectionの設定:

名称設定値
JDBC URL:jdbc:mysql://ホスト名/データベース名?capitalizeTypeNames=true&useUnicode=true&
characterEncoding=UTF8&tinyInt1isBit=false&autoReconnect=true&maxReconnects=3
UserName:MySQL上に作成した,Webアプリからアクセスするデータベースのユーザ名。
Password:同パスワード。
Driver:当方では空白で接続できていますが,「com.mysql.jdbc.Driver」を指定する例もあるようです。
Plugin:空白でOKです。
注:JDBC URLはレイアウトの関係で途中改行を入れていますが,実際は1行です。

JDBC URLで設定した各パラメータについての解説

ホスト名
MySQLが稼動しているホスト名またはIPアドレスを指定します。
WebObjects運用環境とMySQLが同じホストで稼動しているなら,ホスト名は「localhost」または「127.0.0.1」になります。

データベース名
MySQL上に作成した,Webアプリからアクセスするデータベース名を指定します。

capitalizeTypeNames=true
タイプ名を大文字にします。
ドキュメントによると,WebObjectsから呼ぶときはこれを有効にしておくことになっているらしいです。

useUnicode=true
Unicode系の文字エンコーディングを使用することを宣言します。
MySQL 5.0.xではデフォルトがtrueです。

characterEncoding=UTF8
文字エンコーディングをUTF-8に指定します。
MySQLが5.0になって,データベースごと,テキストフィールドごとに文字コードを指定できるようになりましたが,その指定を行った場合はここにはUTF-8を指定することになっているようです。→こちらの最後を参照。
ここで指定した文字コードがデータベースに書き込まれるのは,データベースの文字コードに「binary」とか指定したときに有効なのではないかと思われます。
useUnicodeとcharacterEncodingについての詳細はこちらを参照。

tinyInt1isBit=false
TINYINT(1)を8bit値として扱います。詳細はこちらを参照。
MySQLの旧バージョンにアクセスするプログラムとソースコードを共通化するために,MySQL5.0.xでもTINYINT(1)は8bit値として扱うようにしています。

autoReconnect=true
データベースへクエリを送信する前にデータベースとの接続を確認し,接続が切れていれば再接続を試みます。
ただし,再接続を“安全に”行うことはできず,autoReconnectの機能は将来バージョンで廃止になるようです。
接続が切れる例としては,mysqldはデフォルトでアイドル状態が8時間続いた接続を閉じてしまいます。
この接続が切れるまでのアイドル時間は,「my.cnf」ファイルの[mysqld]セクションで定義する「wait_timeout」(または「interactive_timeout」)パラメータにより指定されます。

maxReconnects=3
autoReconnect=trueのときに再接続を試みる最大の回数です。
注:このパラメータは,MySQL Connector/Jの5.0のドキュメントには記載がありますが,5.1のドキュメントからはなくなっています。

■関連情報
WebObjects:JDBC URL を指定してデータベースサーバの文字エンコードを選択する方法
MySQL 5.1:MySQL Connector/J よくある問題と解決法
MySQL Connector/Jに対してJDBC URLで指定できるパラメータ:[5.0][5.1]
Enterprise Objects Frameworkの解説(Wikipedia)
WebObjects:Javaライブラリの利用方法
WebObjects:[API Reference(javadoc)][ADC Tools][サポート]

■関連書籍をAmazonで検索:[MySQL][WebObjects 和書 洋書][JDBC]
実践 JDBC―Javaデータベースプログラミング術

にほんブログ村 IT技術ブログへ にほんブログ村 IT技術ブログ プログラム・プログラマへ 人気ブログランキングへ ←この記事が役に立ったという方はクリックお願いします。


ノートンモバイルセキュリティバナーブックオフオンライン【PC・携帯共通】

| | トラックバック (0)

MySQL:TINYINT(1)の値

【問題】
MySQL数値型TINYINTは8bitの値で-128~127の値を格納できるはずですが,JDBCアダプタにMySQL Connector/Jを使用してJavaアプリケーションからMySQLデータベースのTINYINT(1)のフィールドに値を書き込むと,実際に書き込まれる値は0か1にしかなりません。
また,このフィールドの値をNumber型やその派生クラスの型で受け取ろうとすると,ClassCastException例外が発生します。

【対応策】
JDBCアダプタのデフォルトでは,TINYINT(1)はBIT(1)とみなされます。そのためこの値の設定・取得はNumber型やその派生クラスではなくBoolean型になります。
TINYINTに-128~127を格納するには,TINYINT(4)と桁数指定することで対処できます。また,TINYINT(1)のまま-128~127の値を格納したい場合は,JDBCアダプタの設定としてJDBC URLに「tinyInt1isBit=false」のエントリを加えます。

例:「tinyInt1isBit=false」を含めたJDBC URL
jdbc:mysql://ホスト名/データベース名?useUnicode=true&characterEncoding=UTF8&tinyInt1isBit=false

■追記:
「tinyInt1isBit=false」は,TINYINT(1)で-128~127の値が指定可能だった旧版(5.0以前)のMySQLで構築したデータベースのデータを,スキーマ定義を変更することなく新版で使用するためのもののようです。そのため最新版のMySQLでデータベーススキーマ定義を1から作る場合はこの設定は避けるべきと思われます。

以上とは逆に,旧版のMySQLにおいて,TINYINT(1)をBooleanとして扱う設定もあります。
「transformedBitIsBoolean=true」という指定で,これはConnector/J 3.1.9以降で指定可能です。
Connector/J 3.1.xはMySQL4.1以降が対象になります。(出典
この指定はMySQL5.0以降では指定する意味がありません。

■関連情報
MySQLの数値型:[4.1][5.1]
MySQL Connector/Jに対してJDBC URLで指定できるパラメータ:[5.0][5.1]
JDBCで値を受け渡すときのJavaの型:[5.0][5.1]

■関連書籍をAmazonで検索:[MySQL][JDBC]
MySQL徹底入門 第3版 ~5.5新機能対応~ (kindle版)

にほんブログ村 IT技術ブログへ にほんブログ村 IT技術ブログ プログラム・プログラマへ 人気ブログランキングへ ←この記事が役に立ったという方はクリックお願いします。


SoundLink Mini Bluetooth speaker_ii

| | トラックバック (0)